定义
按爬取计费是一种提议中的新兴变现模式,AI训练和检索公司每次自动爬虫抓取并索引网站内容时向发布商支付费用。该概念源于发布商对AI爬虫的抵制——这些爬虫在不提供补偿或流量回馈的情况下抓取网页内容用于LLM训练和RAG检索。实现方式从理论上的计量方案到Cloudflare已部署的按爬取计费产品(2025年),后者将AI爬虫流量路由通过付费墙,按页面抓取收费并将收入转给发布商。
所在链路
发布商创建内容 → AI爬虫请求内容 → 按爬取计费网关检查有效令牌或付款 → 爬虫支付单页费用 → 发布商获得收入 → 内容被索引用于AI检索
为什么重要
AI爬虫现在代表许多发布商相当大比例的网络流量,但不产生广告收入或搜索引荐。按爬取计费提供了直接变现这部分流量的机制,并确立了爬虫访问不是免费权利的先例。
按爬取计费的本质及其兴起原因
按爬取计费是一种发布商每次AI公司自动爬虫抓取和索引页面内容时收取费用的模式。与允许AI爬虫免费访问网站内容不同——就像搜索引擎机器人一直以来被允许的那样——发布商对爬虫访问进行计量计费。
该模式源于随大语言模型发展而形成的结构性不对称:
- 搜索引擎爬虫索引内容,并以引荐流量作为交换
- AI训练爬虫索引相同内容,用于训练商业模型,却不提供任何流量回馈
- AI检索爬虫(基于RAG的系统)持续抓取新鲜内容来回答用户查询,不产生任何广告展示或访问
对于依赖搜索流量和广告收入的发布商,AI爬虫在总请求量中占有相当大的比例,却不产生任何收入。按爬取计费模式试图通过对以前免费的内容收费来纠正这一失衡。
最直观的现实部署是Cloudflare的AI Audit和按爬取计费产品(2025年发布),它将AI爬虫流量路由通过支付网关。使用Cloudflare的发布商可以为AI爬虫设置单页价格;拒绝付款的爬虫被封锁或提供降级内容。
哪些爬虫是目标对象
并非所有爬虫在按爬取计费目的下都是等价的:
AI训练爬虫。 为LLM收集训练数据的爬网公司。例如:GPTBot(OpenAI)、ClaudeBot(Anthropic)、Google-Extended(谷歌AI训练,与搜索索引用的Googlebot不同)、Common Crawl。这些爬虫收集训练数据集所用数据;不回送流量。
AI检索爬虫。 实时抓取当前网络内容来回答用户查询的系统(RAG,检索增强生成)。这些爬虫可能反复抓取同一页面以保持模型知识的时效性。
搜索索引爬虫。 Googlebot、Bingbot、DuckDuckBot——索引内容并发送引荐流量的传统搜索爬虫。封锁这些爬虫会损害SEO;它们通常被排除在按爬取计费执行之外。
社交预览爬虫。 Twitter/X、Slack和LinkedIn等平台抓取URL生成链接预览。这些流量通常较小,被排除在按爬取计费方案之外。
区分AI训练/检索爬虫和搜索索引爬虫至关重要——封锁错误的爬虫会毁掉有机搜索流量。Cloudflare的AI Audit产品对爬虫进行分类,让发布商能按类别做出决策。
如何识别AI爬虫流量
在设置按爬取计费之前,发布商需要了解自己的实际爬虫流量。
服务器日志。 HTTP访问日志记录每次请求的User-Agent字符串。AI爬虫使用独特的用户代理:GPTBot/1.0、ClaudeBot/1.0、Google-Extended、CCBot/2.0(Common Crawl)等。导出一周的日志并按用户代理汇总请求计数,可以看到哪些爬虫最活跃。
Cloudflare Analytics。 如果您使用Cloudflare,机器人分析仪表板按机器人类型对流量进行分类,并将AI爬虫作为单独类别。这是Cloudflare用户最简便的审计方式。
robots.txt日志。 尊重robots.txt的爬虫会在爬取之前先获取它。用AI用户代理监控对GET /robots.txt的404或200响应,可以识别哪些爬虫正在尝试访问。
典型的中等流量发布商(每月10万-50万页面浏览量)可能会发现AI爬虫占总服务器请求的5-20%。在AI公司重点关注的垂直领域(新闻、研究、技术文档)中具有高权威性的网站通常看到更高的比例。
定价和实现选项
Cloudflare按爬取计费。 发布商为AI爬虫访问设置单次请求价格(以微积分或分计价)。已同意Cloudflare支付协议的AI公司以此费率计费;未同意的被封锁或限速。收入通过Cloudflare的计费系统转给发布商。截至2025年,这是部署最广泛的实现方案。
robots.txt封锁。 免费且即时:在robots.txt中添加User-agent: GPTBot / Disallow: /来封锁特定爬虫。这不产生收入,但减少服务器负载并保护内容免受未经发布商同意的AI训练使用。大多数AI公司将遵循robots.txt指令作为政策惯例。
合同授权。 一些发布商和AI公司就训练数据访问权限协商直接授权协议。这通常针对大型内容库(新闻发布商、学术数据库),不是自动化的按爬取计费,而是直接合同。
llms.txt。 一种新兴惯例(尚未成为标准),供发布商为AI检索提供网站内容的结构化摘要,可能与授权条款相连接。
收入潜力
按爬取计费的经济学取决于爬虫请求量和市场确立的单请求价格。
示例计算:拥有50,000个页面、每周被主要AI检索系统爬取一次(对于活跃更新内容很常见)的发布商,每年产生约260万次爬取请求。以每页0.001美元计(仅供参考;截至2025年中期实际市场定价尚未确立),这将是每年2,600美元——对于拥有对AI系统高价值内容的利基技术网站来说,是对广告收入的小幅但真实的补充。
实际市场价格将由谈判、愿意参与的发布商供给以及AI公司愿意为访问支付的金额与在开放数据集上训练的成本比较来决定。现在(2025年)预测可靠的收入数字还为时过早。
常见错误
- 用robots.txt封锁所有AI爬虫而不捕获收入。 robots.txt封锁阻止内容的AI使用,但不产生收入。对于以AI训练使用为主要担忧的发布商,封锁是恰当的。对于希望从AI访问中获得持续收入的发布商,按爬取计费是替代方案。
- 不理解Google-Extended的范围就封锁它。 Google-Extended控制内容是否被用于谷歌的AI训练;它不影响Googlebot的搜索索引。封锁Google-Extended不会损害搜索排名。这是一个常见的混淆点。
- 将价格定得高于AI公司愿意支付的水平,实际上成为封锁。 如果发布商设置的按爬取计费价格高到AI爬虫拒绝支付,结果等同于封锁——但增加了更多基础设施开销。
- 将按爬取计费视为主要收入而非补充收入。 对大多数发布商而言,爬取收入将是广告收入的一小部分。对规模保持合理预期很重要。
常见问题
封锁AI爬虫会损害我的搜索排名吗? 只有当您封锁了错误的爬虫时才会。Googlebot和Bingbot驱动搜索排名——必须允许它们访问。封锁GPTBot、ClaudeBot、Google-Extended或Common Crawl对搜索索引或排名没有影响。使用特定用户代理规则区分不同类型的爬虫。
AI公司遵守robots.txt吗? 主要AI公司(OpenAI、Anthropic、谷歌AI)对其AI训练爬虫声明了遵守robots.txt指令的政策。对于明确命名的爬虫,合规性总体上得到遵守。信誉较低的爬取工具可能忽略robots.txt。
按爬取计费如何与版权法互动? AI训练的版权法在积极诉讼中(2025年)。robots.txt惯例没有法律效力——它是技术协议,不是法律协议。AI公司是否对发布商在训练数据使用方面有独立的版权义务,在多个正在进行的案件中存在争议。按爬取计费无论法律结果如何都创造了合同支付机制,这是其价值的一部分。
我应该在小型网站上启用按爬取计费吗? 对于非常小的网站(每月页面浏览量低于5万),收入可能微不足道,设置开销可能不值得。对于拥有AI系统认为有价值的高价值技术或新闻内容的中型及以上内容网站,值得评估。
按爬取计费和CDN或机器人防护服务有什么区别? CDN机器人防护封锁或限速机器人以保护基础设施。按爬取计费将相同的机器人路由通过支付网关而非封锁,将原本是流量成本的东西转化为潜在收入。Cloudflare的产品位于这个交叉点——它是一个CDN,在机器人过滤层添加了支付基础设施。
新手常见误区
- 不评估按爬取计费替代方案就用robots.txt封锁所有AI爬虫——后者将爬取流量转化为收入而非零
- 假设按爬取计费实现方案稳定且被广泛采用——该模式尚处于萌芽阶段,不同提供商的基础设施差异显著
- 将按爬取计费与标准联盟营销或广告变现混淆——它在HTTP请求层而非页面内容中运作