找回密码
 立即注册
查看: 229|回复: 1

你的新证书刚申请13秒,OpenAI就来敲你家门了

[复制链接]
发表于 2026-1-14 05:44:30 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
知名网络工程师benjojo在社交媒体上发了一条观察。
他刚给自己的服务器申请了一张新的TLS证书,不到一分钟,OpenAI的爬虫就来访问他的robots.txt了。13秒。从证书签发到机器人敲门,13秒。
这条消息很快上了Hacker News首页。评论区里吵翻了。
最让我注意的是一条高赞评论:
"Thousands of systems, from Google to script kiddies to OpenAI to Nigerian call scammers to cybersecurity firms, actively watch the certificate transparency logs for exactly this reason. Yawn."
翻译过来就是:几千个系统都在盯着CT日志,从谷歌到脚本小子到OpenAI到诈骗犯,这有什么大惊小怪的?打个哈欠吧。
这条评论引发了一场有趣的争论:一边是"这不是常识吗"的老司机,一边是"等等,这也太激进了吧"的惊讶派。
作为一个AI工程布道者,我觉得这个争论背后藏着一个更有意思的问题:
OpenAI的爬虫凭什么比你自己还先知道你的新网站存在?

先说清楚这个技术背景,因为大多数人确实不知道这东西。
CT,全称Certificate Transparency,证书透明度。这是一个为了解决互联网安全问题而诞生的系统。
故事是这样的:HTTPS证书是由CA机构签发的。理论上,只有你能给自己的域名申请证书。但问题来了——如果某个CA被黑客入侵,或者某个政府强迫CA签发假证书呢?用户浏览器会认为这个假证书是合法的,中间人攻击就能得逞。
2011年,荷兰CA机构DigiNotar被黑,攻击者伪造了包括google.com在内的500多个域名的证书。Gmail用户的通信被伊朗政府监听。这件事直接导致了CT系统的诞生。
CT的思路很简单:让所有证书签发都公开透明。每签发一张证书,都必须记录到公开的日志里。任何人都可以查。
这就像医院的出生记录——每个新生儿一出生,信息就进入公开档案。你可以查到任何人的出生信息,也可以监控有没有人冒充你的孩子。
问题是,这个"公开档案"太好用了。
你刚给secret-project.yourcompany.com申请证书,这个子域名就会出现在CT日志里。全世界都能看到。不需要DNS枚举,不需要暴力扫描,只要订阅CT日志的实时更新就行。
而订阅这个日志的,从来不只是安全研究人员。

回到benjojo的发现。
他的日志显示,从证书签发到OpenAI爬虫访问,间隔只有几十秒。这说明OpenAI正在实时监控CT日志流——而且反应速度快得可怕。
有人在HN评论区验证了这个IP确实属于OpenAI:
IP: 74.7.175.182所属范围: 74.7.175.128/25来源: openai.com/searchbot.json
这不是伪造,是实打实的OpenAI官方爬虫。
现在想象一下这个场景:
你的公司正在秘密开发一个新产品。项目代号是"Phoenix"。为了内部测试,运维同学给phoenix-staging.yourcompany.com申请了一张Let's Encrypt证书。
13秒后,OpenAI的爬虫来了。
它会访问robots.txt(benjojo的日志里就是这个)。如果你没有明确禁止,它可能会继续爬取页面内容。哪怕你禁止了,OpenAI至少已经知道了这个子域名的存在。
这个子域名会进入OpenAI的某个索引。可能用于训练数据,可能用于搜索引擎,可能只是存着。
你的"秘密项目",在技术层面上从来不是秘密。

HN上的"老司机"们有一个观点:这不是什么新闻,CT日志就是设计成公开的,而且早就有无数系统在监控了。
这话没错。
安全公司用CT日志发现钓鱼网站——有人注册g00gle-login.com申请证书,安全系统立刻预警。
漏洞猎人用CT日志寻找新目标——新上线的服务往往配置不当,是挖漏洞的好时机。
甚至恶意攻击者也在用——用脚本监控CT日志,自动扫描新域名的已知漏洞。
所以OpenAI做这件事,从"合法性"角度看没什么问题。CT日志本来就是公开的。监控公开数据不违法。
但"合法"和"值得关注"是两回事。
OpenAI不是安全公司,不是漏洞猎人,也不是学术研究者。它是目前最大的AI模型训练商之一。它监控CT日志的目的,大概率是发现新的数据源。
每一个新域名,都是一个潜在的可爬取目标。越早发现,越早爬取,数据越"新鲜"。
这就是"Yawn"派忽略的一点:同样的技术手段,用在不同规模、不同目的上,意义完全不同。

街边小贩看一眼你的购物袋,和超市用AI分析你的购物车,从"看"的角度说是一样的。但你知道这不是一回事。

聊完背景,说点实际的。
如果你在做AI相关的工作,这件事值得记住:
第一,你的基础设施暴露比你想象的多。
不只是CT日志。DNS查询、CDN配置、云服务的元数据……很多"隐藏"的信息其实都是公开的。如果你的内部系统不想被外界发现,wildcard证书(通配符证书)是一个选项——*.yourcompany.com只暴露主域名,不暴露具体子域名。
第二,OpenAI的数据获取策略比你想象的系统化。
CT日志只是冰山一角。从这个细节可以推断,OpenAI在数据获取上投入了大量工程资源。它不是在"被动等待"互联网内容,而是在"主动发现"。
对于想做类似事情的团队,这是一个思路:不要只想着爬取已知网站,要想办法发现新的数据源。CT日志、DNS zone transfer(如果配置不当)、公开的S3 bucket列表……数据的"入口"比想象中多。
第三,robots.txt的君子协议还能维持多久?
benjojo的日志显示OpenAI爬虫首先访问了robots.txt。这意味着它理论上会遵守你设置的爬取规则。
但这是"理论上"。
robots.txt是一个没有强制力的协议。它只是一个"请不要爬"的请求,不是技术上的阻止。而且,即使爬虫本身遵守了规则,它已经知道了你域名的存在——这个信息本身可能就有价值。
随着训练数据竞争越来越激烈,robots.txt这种基于信任的协议能维持多久,是个值得思考的问题。

退一步看,这件事反映的是一个更大的趋势:AI公司的数据采集正在变得越来越"omniscient"——无所不知。
传统的搜索引擎爬虫是"被动发现":从已知网页出发,沿着链接走。新网站要被发现,通常需要有别的网站链接过来。
新一代的AI数据采集是"主动发现":监控证书日志、扫描IP地址段、分析DNS变更……它们试图在第一时间知道互联网上发生了什么新事情。
这不是OpenAI一家在做。可以合理推测,Google、Anthropic、以及中国的几家大厂,都在用类似的方法。
作为互联网的参与者,我们需要调整心理预期:在公网上做任何事,默认假设"所有人都会知道"。不是因为有人在针对你,而是因为监控一切的基础设施成本已经低到可以忽略。

本文转载自:https://mp.weixin.qq.com/s/bm4Ryk1RaA8zAKcbMyC0cw
回复

使用道具 举报

 楼主| 发表于 2026-1-14 05:45:07 | 显示全部楼层
原贴https://www.nodeseek.com/post-581052-1
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|tg群|Archiver|小黑屋|邮件屋-邮箱论坛

GMT+8, 2026-2-4 13:31 , Processed in 0.089028 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表