@include('layouts.partials.header')

AI帮你写robots.txt和sitemap:SEO基础配置一次搞定

上周帮一个客户做网站诊断,打开他的robots.txt一看,只有一行:

Disallow: /

整站禁止搜索引擎收录。他说"我网站上线半年了,百度谷歌都搜不到"。原因就在这里。

robots.txt和sitemap.xml是SEO最基础的两个文件,但也是出错率最高的。今天说清楚:这两个文件是干什么的、最容易犯什么错、怎么用AI帮你一次写对。

robots.txt是干什么的

简单说:robots.txt是一个"告示牌",放在你网站的根目录,告诉搜索引擎的爬虫:哪些页面可以抓,哪些不要抓。

不是强制规定,但主流搜索引擎(百度、谷歌、必应)都会读这个文件,并按它的规则来执行。

正确的robots.txt长什么样?

一个标准的robots.txt通常是这样的:

User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.example.com/sitemap.xml

意思是:所有爬虫(User-agent: *),不要抓后台、购物车、结账页,但允许抓admin-ajax.php(WordPress的AJAX接口)。最后一行告诉搜索引擎:我的sitemap在哪里。

最容易犯的5个错误

错误1:Disallow: /(禁止整站)
上面说的那个客户就是这个问题。一旦写了这个,搜索引擎完全不收录你的网站。

错误2:语法错误
robots.txt有固定语法。写错了,搜索引擎可能读不懂,直接忽略这个文件。比如:

# 错误写法
disallow /wp-admin/    # 必须用英文Disallow,且冒号后面有空格

# 正确写法
Disallow: /wp-admin/

错误3:屏蔽了CSS和JS文件
有人为了"防止泄露技术信息",把CSS和JS文件也Disallow了。结果是:搜索引擎看不到你页面的样式和交互,影响页面质量评估。

错误4:sitemap路径写错
robots.txt最后一行通常要写上sitemap的地址。但很多人写的是本地路径或者旧域名,导致搜索引擎找不到sitemap。

错误5:用robots.txt阻止敏感页面
robots.txt不是安全工具。你想隐藏的页面(比如后台登录页),不应该依赖robots.txt来保护,而应该用密码或者移除索引。

用AI帮你写robots.txt(提示词模板)

你不需要自己记语法。把你的网站信息告诉AI,让它帮你生成。

提示词模板:

我的网站是基于[WordPress/WooCommerce/Shopify/自定义]搭建的。

请帮我生成一个标准的robots.txt文件,要求:

1. 禁止抓取后台路径:[填写你的后台路径,比如/wp-admin/]
2. 禁止抓取购物车和结账页:[填写路径]
3. 允许抓取必要的JS和CSS文件
4. 在最后加上sitemap的地址:https://www.example.com/sitemap.xml
5. 输出完整的robots.txt内容,并加上中文注释说明每一行的含义

把AI生成的内容保存为robots.txt,上传到网站根目录,然后在浏览器里访问 https://你的域名/robots.txt ,看看能不能打开。

sitemap.xml是干什么的

sitemap是一个"目录",告诉搜索引擎:我这个网站有哪些页面、最近更新时间、重要程度如何。

没有sitemap,搜索引擎也能通过链接发现你的页面,但有了sitemap,收录速度会更快、更完整。

一个标准的sitemap.xml长这样:



  
    https://www.example.com/
    2026-06-04
    daily
    1.0
  
  
    https://www.example.com/products/
    2026-06-01
    weekly
    0.8
  

每个代表一个页面。priority是优先级(0.0-1.0),changefreq是更新频率。

sitemap最容易犯的3个错误

错误1:sitemap里包含了屏蔽页面的URL
你在robots.txt里写了Disallow: /cart/,但sitemap里又有/cart/的链接。搜索引擎会困惑:你到底让不让我抓这个页面?

错误2:URL数量超过5万条
一个sitemap文件最多只能包含5万个URL。超过的话,需要拆分成多个sitemap,再用一个sitemap索引文件来组织。

错误3:lastmod日期格式错误
lastmod必须是W3C格式的日期(比如2026-06-04),不能写成2026/6/4或者其他格式。

用AI帮你生成sitemap.xml

如果你的网站页面很多(几百上千个),手动写sitemap不现实。有两种方法:

方法一:让AI帮你写生成脚本

提示词:

我的网站有[数量]个页面,URL结构是:
- 首页:/
- 产品页:/products/[产品名]
- 文章页:/blog/[文章标题]

请帮我写一个[Python/PHP/Node.js]脚本,自动生成sitemap.xml,要求:
1. 遍历所有页面URL
2. 每个URL的lastmod用文件的最后修改时间
3. 首页priority=1.0,产品页priority=0.8,文章页priority=0.6
4. 输出符合sitemap协议的XML格式

方法二:直接用在线工具或者插件

如果你用的是WordPress,有很多插件可以自动生成sitemap(比如Yoast SEO、Rank Math)。但如果你是自己开发的网站,让AI帮你写个脚本是最灵活的方法。

两个文件都配置好了,怎么验证

验证robots.txt:

  1. 在浏览器访问 https://你的域名/robots.txt,看能不能打开;
  2. 用Google Search Console的"robots.txt测试工具"检查语法是否正确;
  3. 用百度搜索资源的"robots工具"检查百度是否能正确读取。

验证sitemap.xml:

  1. 在浏览器访问 https://你的域名/sitemap.xml,看能不能打开;
  2. 在Google Search Console提交sitemap,看有没有错误报告;
  3. 在百度搜索资源提交sitemap,看收录情况。

最后说一句

robots.txt和sitemap.xml是SEO的基础设施,就像房子的地基。地基没打好,上面盖什么都白搭。

但你不需要自己从头写。把这篇文章收藏好,下次需要的时候,把提示词模板复制过去,让AI帮你生成,10分钟就能搞定。

网站诊断或者其他SEO基础配置问题,来找我:www.123zhidao.com

需要任何帮助联系我们