赛博菩萨 Cloudflare,AI 爬虫最严厉的父亲
创始人
2026-07-05 16:49:54
0

互联网最大的「保安」,现在要当最大的「收银员」了。

作者| 靖宇

7 月 1 日,Cloudflare 发了一篇博客,标题很温和,叫「你的网站,你的规则」。但内容一点也不温和——从 9 月 15 日起,所有使用 Cloudflare 的网站,默认屏蔽混合用途的 AI 爬虫。只要你的页面上有广告,AI 的训练爬虫和 Agent 爬虫就进不来。除非你自己去后台手动打开。

注意这个逻辑翻转:以前是「默认允许,你可以选择屏蔽」,现在是「默认屏蔽,你可以选择允许」。

这是互联网基础设施层,第一次对 AI 数据获取方式进行系统性「立法」。

做出这个决定的背景是一个标志性的事件,互联网上的 bot 流量,已经超过了人类流量。

Cloudflare CEO Matthew Prince 说,这个里程碑比所有人预期的都来得早,原本预计要到 2027 年才会发生。换句话说,今天你打开的大多数网页,「看」它们的主要不是人,而是机器。

而如何规范来自 AI 的流量,既有可能决定了所有网站的未来,也决定了网络守门人 Cloudflare 自己的发展轨迹。

01

最严厉的「爬虫政策」

根据官方介绍,Cloudflare 把 AI 爬虫拆成了三类。

第一类叫「Search」,就是为搜索服务建索引的传统爬虫,Google 干了二十多年的那种。

第二类叫「Agent」,是实时代用户去访问网页的 AI 代理,比如你让 ChatGPT 帮你查个信息、填个表单,它背后就有一个 Agent 爬虫在替你跑腿。

第三类叫「Training」,就是大规模抓取内容用于模型训练的爬虫。

三类分开标注。网站主可以分别对每一类设置「允许」或「屏蔽」。你想让搜索引擎找到你?可以。你想让 AI 代理帮你的用户查信息?也可以。 但你不想让 AI 公司白嫖你的内容去训练模型?那你可以单独把 Training 关掉。

这个分类本身就是一把刀,直接捅向了 Google。

Google 的 Googlebot 是一个典型的「混合爬虫」——它同时为 Google 搜索建索引,也为 Google 的 AI 功能(比如 AI Overviews)采集数据。Google 确实提供了一个叫 Google-Extended 的工具,允许网站选退 AI 训练。但问题在于,Googlebot 这个核心爬虫本身,依然会同时为搜索引擎内置的 AI 功能收集数据。

搜索和 AI 的数据需求,在 Google 的架构里就没有被真正分开过。

这意味着什么?Cloudflare 的数据说得很清楚:因为网站想保持在 Google 搜索中的可见性,就不得不让 Googlebot 进来,而 Googlebot 进来了,AI 训练的数据也就一并拿走了。 Google 因此获得了大约两倍于其他 AI 公司的网页内容访问量。

Cloudflare 这次还加了一条「最严规则优先」的原则。如果一个爬虫同时执行搜索和训练两个功能,那所有适用的规则会同时生效——按最严格的那个来。也就是说,你只要选择屏蔽 Training 爬虫,Googlebot、Applebot、BingBot 这些混合爬虫,统统会被一并屏蔽。

这刀砍的是「捆绑」——你想被搜索到,就得接受被 AI 训练。Cloudflare 说,这个捆绑不公平,必须拆开。

一组数据可以说明旧「社会契约」崩坏到了什么程度。Cloudflare 公布了各家 AI 公司的爬取与回流比:Google 大约是 14:1——每爬取 14 个页面,回流 1 次点击。OpenAI 是 1,700:1。Anthropic 是 73,000:1。

搜索引擎时代的交易是「我爬你的内容,你得到流量」。在 AI 时代,这笔账已经算不过来了。

02

从「保安」到「收银员」

如果 Cloudflare 只是帮网站主挡住 AI 爬虫,那这件事的意义就止于「防御」。但 Cloudflare 显然不满足于只当保安。

去年 7 月,Cloudflare 推出了「Pay Per Crawl」——按爬取次数向 AI 公司收费。今年,它把这个模式升级为「Pay Per Use」。区别在于,不再是爬虫每来一次你收一次钱,而是当你的内容在 AI 系统中真正产生了价值,被用于生成一个回答、出现在一个 AI 搜索结果里,用户才能收到钱。

从「按次收费」到「按价值收费」,这个转变的野心不小。它意味着 Cloudflare 想建立的不是一道墙,而是一个市场。

目前的初始合作伙伴是两家 AI 搜索公司 Ceramic.ai 和 You.com。当出版商选择加入后,他们的内容出现在 Ceramic 的 AI 搜索结果中,或被 You.com 的 Agent 访问时,出版商会收到付款。大出版商们纷纷站台——Condé Nast 的 CEO 说这是「游戏规则的改变」,Reddit 的联合创始人说「整个生态系统都会受益」。

听起来像是一个完美的故事。但我觉得有必要说一个不那么完美的细节。

今年 3 月,Cloudflare 自己发布了一个爬虫 API。你给它一个 URL,它能一次性抓取整个网站,返回 HTML、Markdown 或结构化 JSON。这让一些出版商相当不安——那个一直帮我挡爬虫的公司,怎么自己造了一个爬虫?

更尴尬的是,有出版商尝试屏蔽 Cloudflare 自己的爬虫时发现,设置不生效。虽然 Cloudflare 后来修复了这个问题,但互联网上的评论已经传开了—— 「我们保护网站不被爬虫抓取……除非是我们自己的爬虫。」

Cloudflare 对此的解释是,它的爬虫是「合规爬虫」,会尊重 robots.txt,会遵守自己的 AI Crawl Control 规则。如果站长选择屏蔽 AI 爬虫,Cloudflare 自己的爬虫也会被挡在门外。用一位开发者的话说,这是一个「两边下注所以永远赢」的策略。

这就引出了一个根本性的问题:Cloudflare 到底是一个中立的基础设施裁判,还是一个新型的中间商?

答案可能是后者。

它同时扮演着规则制定者(定义三类爬虫)、规则执行者(在基础设施层拦截爬虫)和市场参与者(运营自己的爬虫和内容交易平台)三个角色。

这不是说它做的事情没有价值——把 AI 爬虫从「无序掠夺」拉入「明确分类、需要许可」的框架,确实是一个进步。但把 Cloudflare 当成内容创作者的「救世主」,就太天真了。

它在构建的,是一个以自己为枢纽的「AI 内容税收站」。

03

普通人能分到蛋糕吗?

这可能是整件事里最让人冷静的部分。

Condé Nast、Dotdash Meredith、Reddit——站出来支持 Cloudflare 的,都是大型出版商和平台。它们有内容规模,有法务团队,有谈判筹码。这些公司不需要 Cloudflare 也能跟 AI 公司签许可协议——事实上,过去一年全球已经签了超过 50 份内容许可大单。Cloudflare 对它们来说,是多了一个工具,不是唯一的出路。

但个人博主呢?一个在 WordPress 上写技术教程的独立开发者呢?一个用公众号写深度分析的自媒体人呢?

理论上,Cloudflare 的基础设施,可以让小内容主无需逐一跟每家 AI 公司谈判,就能设定权限和获得补偿。 但「理论上」三个字是关键。Pay Per Use 到现在只有 Ceramic.ai 和 You.com 两个合作伙伴,都是小玩家。OpenAI、Google、Anthropic 这些真正在大规模消耗内容的公司没有一个上桌。

而且有一个更现实的矛盾:对小创作者来说,曝光本身就是最稀缺的资源。屏蔽 AI 爬虫可能意味着减少被发现的机会。大媒体屏蔽爬虫,Google 搜索还是会收录它们;小博客屏蔽爬虫,可能就真的消失在互联网的噪音里了。

有一组更让人清醒的数据。

AI 聊天机器人带来的引荐流量比传统搜索少大约 96%。用户在 AI 回答中点击引用来源的概率,只有大约 1%。出版商在过去一年因为 AI 搜索功能损失了 20% 到 90% 不等的流量和收入。一项研究发现,Google 的 AI Overviews 让外链点击量下降了大约 40%。

这意味着,即使 Pay Per Use 全面铺开,付费规模也可能远远不够弥补出版商已经失去的广告收入。这不是一场变局,更像是一次止损——而且未必能止住。

Cloudflare 报告说,50% 以上的 AI 爬虫流量花在重复抓取未更新的页面上。解决这种低效确实有价值。但解决效率问题和让创作者真正赚到钱,是两件事。

04

「菩萨」也有自己的庙

Cloudflare 向来被广大用户称赞为「赛博菩萨」,是因为它确实在做一件有价值的事——把 AI 时代的数据掠夺从暗处拉到明处,逼 AI 公司说清楚「我要你的数据干什么」。在一个 bot 流量已经超过人类流量的互联网上,有人愿意站出来喊一声「规矩不能这么没有」,这本身值得肯定。

但「菩萨」也有自己的庙。

Cloudflare 管理着全球大约 20% 的网络流量,这个数字既大又不够大。另外 80% 的网站不在它的保护范围内。AI 公司完全可以把数据采集的重心转向非 Cloudflare 站点。

Google 和 Apple 的爬虫已经提供了形式上的选退工具,可能借此绕过 Cloudflare 的拦截。英国竞争与市场管理局(CMA)正在从监管角度向 Google 施压,要求它让出版商能在不影响搜索排名的前提下退出 AI 训练。

一个基础设施公司的政策,不会让这场内容权益的重新分配尘埃落定。

但它揭示了一个更深层的趋势, 互联网的「收费站」正在从搜索引擎转移到基础设施层。

过去二十年,Google 是那个站在路中间决定谁能被看见的人。现在 Cloudflare 想在更底层的位置拦一道——你要过路,先说清楚你是来干什么的,然后按规矩来。

收费站变了。收费的人,未必变了。

*头图来源:hitechnectar.com

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

当 AI 消耗你的内容却不回馈流量,

你愿意被「保护」还是被「代理收费」?

相关内容

赛博菩萨 Cloudfla...
互联网最大的「保安」,现在要当最大的「收银员」了。 作者| 靖宇 ...
2026-07-05 16:49:54
济南能源:铸强AI自主内核...
当前,数字中国建设向纵深推进,人工智能、数字孪生、一体化算力调度等...
2026-07-05 08:29:52
助C罗“重返28岁”!AI...
Whoop手环为41岁C罗世界杯表现保驾护航,助其完成梅开二度,带...
2026-07-03 06:52:07
从第一性原理看机器人AI:...
机器之心编译 过去几年,机器人行业最常见的高光时刻,几乎都发生在演...
2026-06-28 21:24:04
原创 ...
AI最大的问题,就是幻觉太多,还有会无底线地讨好你。 不管你...
2026-06-28 21:22:37
活力中国调研行|通用数据大...
每经记者|张蕊 每经编辑|黄胜 “这一年多时间,包括旁边的上下游创...
2026-06-28 21:18:04

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
8月20日基金净值:前海开源中... 证券之星消息,8月20日,前海开源中国稀缺资产混合A最新单位净值为1.43元,累计净值为1.43元,...