SEO 工具
Robots.txt 测试器
免费 robots.txt 测试器,支持 Googlebot、GPTBot、ClaudeBot、PerplexityBot 及所有主流爬虫。粘贴 robots.txt,选择 user-agent,同时测试多个 URL 路径——每条结果显示路径是允许还是被屏蔽,以及触发匹配的具体规则,完整复现搜索引擎和 AI 爬虫使用的 RFC 9309 匹配算法。
SEO 工具
免费 robots.txt 测试器,支持 Googlebot、GPTBot、ClaudeBot、PerplexityBot 及所有主流爬虫。粘贴 robots.txt,选择 user-agent,同时测试多个 URL 路径——每条结果显示路径是允许还是被屏蔽,以及触发匹配的具体规则,完整复现搜索引擎和 AI 爬虫使用的 RFC 9309 匹配算法。
按 RFC 9309 规则验证 robots.txt 指令 / Validate robots.txt directives per RFC 9309
| 路径 / Path | 结果 / Result | 匹配规则 / Matched Rule |
|---|---|---|
| / | ✓ Allowed | Allow: / [line 7] |
| /admin/dashboard | ✓ Allowed | Allow: / [line 7] |
| /admin/public/page | ✓ Allowed | Allow: / [line 7] |
| /docs/report.pdf | ✗ Blocked | Disallow: /*.pdf$ [line 6] |
| /docs/report.pdfx | ✓ Allowed | Allow: / [line 7] |
| /about | ✓ Allowed | Allow: / [line 7] |
Robots.txt 是一个纯文本指令文件,用于告诉网络爬虫哪些页面可以访问、哪些不可以访问。Google、Bing 等主流搜索引擎,以及 GPTBot、ClaudeBot 等 AI 训练爬虫,都会在抓取任何其他 URL 之前先读取并解析这个文件。一条写错的规则,可能会意外地把整个网站都屏蔽在索引之外,或者反过来把敏感页面暴露给所有爬虫。
Google 曾在 Google Search Console 内提供官方 robots.txt 测试工具,但该工具已于 2023 年关闭,留下了一个工具空白。这款免费的 robots.txt 测试器填补了这一空缺,完整实现了 RFC 9309 匹配算法——也就是 Google、Bing 和 AI 爬虫实际使用的规则解析规范。
关于 robots.txt 在整体网站架构中的定位,请参阅 技术 SEO 指南。
Robots.txt 的常见错误分为两类:过度屏蔽(意外阻止爬虫访问你希望被索引的内容)和屏蔽不足(未能阻止爬虫访问应当保密的页面,如测试环境、管理后台或重复内容目录)。
过度屏蔽更为常见,也更具破坏性。User-agent: * 下的 Disallow: / 指令会屏蔽所有爬虫访问所有 URL——这种配置有时在测试环境中设置,然后意外上线到生产环境。没有测试工具,这个错误可能在数天甚至数周内不被发现,导致索引崩溃,恢复需要数月。
屏蔽不足则有另一层风险。如果你没有屏蔽 GPTBot 或 ClaudeBot,你的原创内容可能在未经同意的情况下被用于训练大型语言模型。2023 至 2025 年间,许多出版商开始有意识地通过 robots.txt 决定是否允许 AI 爬虫访问。
不同的 robots.txt 解析器行为并不完全一致。Google 的实现现已在 RFC 9309 中标准化,其中定义了两条许多简化版测试器都会出错的关键规则:
最长匹配优先。 当多条规则同时匹配某个 URL 路径时,最具体的规则优先——不是第一条,也不是最宽松的那条。例如:
Disallow: /products/
Allow: /products/sale/
对于路径 /products/sale/item-1,两条规则都能匹配。Allow: /products/sale/ 获胜,因为 /products/sale/(15 个字符)比 /products/(10 个字符)更长。
等长规则,Allow 优先。 如果一条 Disallow 和一条 Allow 规则长度完全相同且都匹配某路径,Allow 指令获胜。这是防止意外屏蔽的保底规则。
User-agent 精确匹配优先。 如果存在与爬虫名称完全匹配的 user-agent 块(例如 User-agent: Googlebot),该块完全优先,User-agent: * 通配块对该爬虫完全无效。
当各大 AI 公司开始大规模部署训练爬虫,robots.txt 的应用场景发生了显著变化。2026 年,最常被屏蔽的 AI 爬虫包括:
| User-Agent | 运营方 | 主要用途 |
|---|---|---|
| GPTBot | OpenAI | 大模型训练数据采集 |
| ClaudeBot | Anthropic | 大模型训练数据采集 |
| PerplexityBot | Perplexity AI | 实时搜索索引 |
| CCBot | Common Crawl | 开放数据集(被众多大模型使用) |
| Google-Extended | Gemini 训练(独立于 Googlebot) |
屏蔽这些爬虫需要在 robots.txt 中设置明确的 User-agent 块。一刀切的 User-agent: * Disallow 会同时屏蔽 Googlebot,这通常不是预期效果。使用本工具可以逐一模拟每个 user-agent,确认规则对每类爬虫的行为都符合预期。
AI 爬虫与自然搜索的关系,以及 Google AI 概述如何与内容策略互动,请参阅 AI Overviews 指南。
https://yourdomain.com/robots.txt 复制原始文本,粘贴到输入框中。/products/、/admin/login、/blog/),支持单次测试多个路径。目录路径缺少斜杠。 Disallow: /admin 屏蔽 /admin,但在某些解析器中可能无法屏蔽 /admin/settings。应使用 Disallow: /admin/ 以明确表达意图。
爬虫被屏蔽访问 XML Sitemap。 你的 Sitemap 应始终可访问。如果你为某些 agent 设置了宽泛的 Disallow: / 块,确保 Sitemap URL 不被包含在内。XML Sitemap 生成器 介绍了在 robots.txt 中用 Sitemap: 指令引用 Sitemap 文件的正确语法。
通配符使用不当。 Disallow: /*.pdf$ 需要支持 Google 扩展语法的解析器。RFC 9309 核心规范并不强制要求通配符支持——这意味着某些爬虫会完全忽略该规则。
同一 agent 出现多个 User-agent 块。 如果 Googlebot 出现在两个独立的块中,Google 只读取第一个匹配的块,忽略第二个。
在抓取层面,是的——Google 不会访问被 robots.txt 屏蔽的 URL。但如果其他网站链接到被屏蔽的 URL,Google 仍可能将其收录,只是在搜索结果中显示"此页面无相关信息"的片段。要彻底防止被收录,你需要通过 HTTP 响应头或 meta 标签传递 noindex 指令——这要求页面本身必须可以被抓取。
可以。使用独立的 User-agent 块:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Googlebot
Allow: /
这个配置屏蔽 AI 训练爬虫,同时对 Googlebot 不加限制。
Googlebot 通常会缓存 robots.txt 最多 24 小时。你部署的修改在缓存到期前可能不会对现有抓取队列生效。如需紧急屏蔽(例如测试环境意外暴露),请在 Google Search Console 中使用 URL 检查工具请求立即重新抓取。
无需编写代码,为任何页面生成有效的 JSON-LD 结构化数据。从六种 Schema 类型中选择——Article、FAQPage、Product、Organization、LocalBusiness、BreadcrumbList——填写表单字段,工具输出经 Schema.org 标准验证、可直接粘贴的标记代码。复制输出内容粘贴到页面 `<head>` 即可解锁 Google 富媒体结果。
为多语言和多地区网站创建并校验 hreflang link 标签。生成器模式输出包含 x-default 的完整 `<link rel="alternate" hreflang="...">` 标签集,校验器模式检查现有标签的常见错误,如错误的语言代码(en-UK 而非 en-GB)、重复的 hreflang 值、缺少 x-default 声明,以及导致 Google 忽略整个 hreflang 集群的缺少自我引用标签问题。
在几秒内从任意 URL 列表生成符合标准的 XML Sitemap。每行粘贴一个 URL,配置可选的 lastmod 日期、changefreq 和 priority 值,然后将完成的 sitemap.xml 直接下载到电脑。工具强制执行 50,000 URL 协议上限,在下载前标记格式错误的 URL,并支持带 xhtml:link hreflang 互链的多语言 Sitemap。