上周帮一个客户做网站诊断,打开他的robots.txt一看,只有一行:
Disallow: /
整站禁止搜索引擎收录。他说"我网站上线半年了,百度谷歌都搜不到"。原因就在这里。
robots.txt和sitemap.xml是SEO最基础的两个文件,但也是出错率最高的。今天说清楚:这两个文件是干什么的、最容易犯什么错、怎么用AI帮你一次写对。
简单说:robots.txt是一个"告示牌",放在你网站的根目录,告诉搜索引擎的爬虫:哪些页面可以抓,哪些不要抓。
不是强制规定,但主流搜索引擎(百度、谷歌、必应)都会读这个文件,并按它的规则来执行。
正确的robots.txt长什么样?
一个标准的robots.txt通常是这样的:
User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml
意思是:所有爬虫(User-agent: *),不要抓后台、购物车、结账页,但允许抓admin-ajax.php(WordPress的AJAX接口)。最后一行告诉搜索引擎:我的sitemap在哪里。
错误1:Disallow: /(禁止整站)
上面说的那个客户就是这个问题。一旦写了这个,搜索引擎完全不收录你的网站。
错误2:语法错误
robots.txt有固定语法。写错了,搜索引擎可能读不懂,直接忽略这个文件。比如:
# 错误写法
disallow /wp-admin/ # 必须用英文Disallow,且冒号后面有空格
# 正确写法
Disallow: /wp-admin/
错误3:屏蔽了CSS和JS文件
有人为了"防止泄露技术信息",把CSS和JS文件也Disallow了。结果是:搜索引擎看不到你页面的样式和交互,影响页面质量评估。
错误4:sitemap路径写错
robots.txt最后一行通常要写上sitemap的地址。但很多人写的是本地路径或者旧域名,导致搜索引擎找不到sitemap。
错误5:用robots.txt阻止敏感页面
robots.txt不是安全工具。你想隐藏的页面(比如后台登录页),不应该依赖robots.txt来保护,而应该用密码或者移除索引。
你不需要自己记语法。把你的网站信息告诉AI,让它帮你生成。
提示词模板:
我的网站是基于[WordPress/WooCommerce/Shopify/自定义]搭建的。
请帮我生成一个标准的robots.txt文件,要求:
1. 禁止抓取后台路径:[填写你的后台路径,比如/wp-admin/]
2. 禁止抓取购物车和结账页:[填写路径]
3. 允许抓取必要的JS和CSS文件
4. 在最后加上sitemap的地址:https://www.example.com/sitemap.xml
5. 输出完整的robots.txt内容,并加上中文注释说明每一行的含义
把AI生成的内容保存为robots.txt,上传到网站根目录,然后在浏览器里访问 https://你的域名/robots.txt ,看看能不能打开。
sitemap是一个"目录",告诉搜索引擎:我这个网站有哪些页面、最近更新时间、重要程度如何。
没有sitemap,搜索引擎也能通过链接发现你的页面,但有了sitemap,收录速度会更快、更完整。
一个标准的sitemap.xml长这样:
https://www.example.com/
2026-06-04
daily
1.0
https://www.example.com/products/
2026-06-01
weekly
0.8
每个
错误1:sitemap里包含了屏蔽页面的URL
你在robots.txt里写了Disallow: /cart/,但sitemap里又有/cart/的链接。搜索引擎会困惑:你到底让不让我抓这个页面?
错误2:URL数量超过5万条
一个sitemap文件最多只能包含5万个URL。超过的话,需要拆分成多个sitemap,再用一个sitemap索引文件来组织。
错误3:lastmod日期格式错误
lastmod必须是W3C格式的日期(比如2026-06-04),不能写成2026/6/4或者其他格式。
如果你的网站页面很多(几百上千个),手动写sitemap不现实。有两种方法:
方法一:让AI帮你写生成脚本
提示词:
我的网站有[数量]个页面,URL结构是:
- 首页:/
- 产品页:/products/[产品名]
- 文章页:/blog/[文章标题]请帮我写一个[Python/PHP/Node.js]脚本,自动生成sitemap.xml,要求:
1. 遍历所有页面URL
2. 每个URL的lastmod用文件的最后修改时间
3. 首页priority=1.0,产品页priority=0.8,文章页priority=0.6
4. 输出符合sitemap协议的XML格式
方法二:直接用在线工具或者插件
如果你用的是WordPress,有很多插件可以自动生成sitemap(比如Yoast SEO、Rank Math)。但如果你是自己开发的网站,让AI帮你写个脚本是最灵活的方法。
验证robots.txt:
验证sitemap.xml:
robots.txt和sitemap.xml是SEO的基础设施,就像房子的地基。地基没打好,上面盖什么都白搭。
但你不需要自己从头写。把这篇文章收藏好,下次需要的时候,把提示词模板复制过去,让AI帮你生成,10分钟就能搞定。
网站诊断或者其他SEO基础配置问题,来找我:www.123zhidao.com