当前位置: 首页 > IT资讯 > 正文

站长工具推出robots.txt文件生成工具

robots.txt是一个网站根目录下的蜘蛛访问控制文件,只要是遵守robots协议的蜘蛛,你可以通过robots.txt来限制蜘蛛能够访问和不能访问的目录(有的蜘蛛是不访问被你声明的路径的网页,比如Googlebot ,有的是访问了后,发现你有声明不能访问,然后删除爬取的结果,比如Baiduspider)

这里特别注意的是robots.txt的文件必须是全部是小写,虽然Windows不区分大小写,但是Linux对大小写敏感的,并且如果文件名不全为小写的话,可能你的内容不会生效

robots.txt的规则的编写其实比较简单,如果英语好的朋友可以参考官方的文档:http://www.robotstxt.org/robotstxt.html

另外,也可以使用站长工具最近推出的robots文件生成工具http://tool.chinaz.com/robots/
robots在线生成

1.在限制的目录输入你不想蜘蛛爬取的目录,比如我这里输入的

/test

/test1

/test2

表示的是禁止蜘蛛爬取这些目录,如果你目录较多话,可以点击增加新的限制目录来增加限制目录

2.(可选) :如果你的站点有sitemap的话,可以在sitemap输入你的站点的sitemap所在的路径,注意这里是一个网址的类型,如果有多个sitemap

可以选增加sitemap增加一个新的sitemap路径

3.选择你要禁止或者要指定的蜘蛛,比如上面我禁止有道的蜘蛛,允许了google的蜘蛛,其他的蜘蛛选的是默认,也就是默认允许

4.生成robots.txt并上传到网站的根目录下,

5.(可选)为了检测robots.txt是否起作用或者是有错误,可以使用下面的两个方法检测:
1.使用google的站长工具检测,但需要理由Google的帐号,重点检测的是Google的蜘蛛能不能爬取和错误

2.使用在线robots检测工具:http://tool.motoricerca.info/robots-checker.phtml 检测,但是这个只能检测错误,不能检测特定的蜘蛛能不能爬取



本文固定链接: http://kuaile.in/archives/953 | 蒲公英的博客

该日志由 蒲公英 于2012年05月09日发表在 IT资讯 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: 站长工具推出robots.txt文件生成工具 | 蒲公英的博客
关键字:

站长工具推出robots.txt文件生成工具:等您坐沙发呢!

发表评论


You must enable javascript to see captcha here!

快捷键:Ctrl+Enter