一、robots.txt到底是什么?为什么你的网站离不开它?
简单来说,robots.txt就像网站的门卫,告诉搜索引擎哪些地方能进、哪些不能进。它位于你网站的根目录(比如http://www.yoursite.com/robots.txt),是搜索引擎蜘蛛(爬虫程序)访问你网站时第一个查看的文件。
几个关键点:
- 不是强制性的,但强烈建议使用
- 只能建议,不能强制执行(守规矩的爬虫会遵守,恶意的可不管)
- 主要控制爬虫的访问,不影响普通用户浏览
我见过太多站长忽视这个文件,结果要么是敏感后台被收录,要么是重复内容影响排名。其实花10分钟设置好它,能省下后面一堆麻烦!
二、手把手教你写robots.txt文件
先看个标准模板:逐行解释:
User-agent: * Disallow: /private/ Disallow: /tmp/ Allow: /public/images/ Sitemap: https://www.yoursite.com/sitemap.xml
- User-agent: * → 对所有爬虫生效(比如Googlebot、Baiduspider)
- Disallow: /private/ → 禁止爬取/private/目录下的所有内容
- Allow: /public/images/ → 特别允许爬取图片目录(即使上级目录被禁止)
- Sitemap → 告诉爬虫你的网站地图在哪
常见误区提醒:
- 路径区分大小写!/Private/和/private/会被当作两个目录
- 每个指令单独一行,别写成Disallow: /a/ /b/
- 斜杠很重要:/admin和/admin/意义不同
三、不同场景下的实用配置方案
1. 基础防护型(适合大多数网站)
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /search/ Allow: /wp-content/uploads/
2. 全开放型(适合纯展示类网站)
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
3. 精准控制型(需要屏蔽特定爬虫)
User-agent: Baiduspider Disallow: /private/ User-agent: * Disallow: /temp/
记得去年有个客户坚持要用第三种方案,结果发现百度根本不收录他的网站…后来发现是把Baiduspider拼错了!这种低级错误一定要避免。
四、高级玩家必备技巧
1. 动态URL处理
如果你的网址带参数(比如?product=123),可以用:
Disallow: /*?* Disallow: /*.php$
2. 屏蔽图片盗链
虽然主要靠.htaccess,但robots.txt也能辅助:
User-agent: * Disallow: /images/
3. 测试工具推荐
- Google Search Console的robots.txt测试器
- 在线的robots.txt验证工具
- 记得修改后至少等24小时再看效果
有个冷知识:即使你屏蔽了某个页面,如果其他网站链向它,搜索引擎还是可能知道这个页面的存在(只是不会抓取内容)。
五、自检清单:你的robots.txt健康吗?
做完配置后,对照检查:
- 是否意外屏蔽了重要页面?
- 路径拼写是否正确?
- 是否使用了最新标准?
- 是否添加了网站地图?
- 是否针对主要搜索引擎做了优化?
建议每季度检查一次,特别是网站改版后。我就遇到过客户改了目录结构但忘了更新robots.txt,导致整个新站半年没被收录的悲剧…