robots.txt文件的功能非常有限,它并不能诱使蜘蛛在你的网站上花费更多的时间或者访问更多的页面。但你可以发挥robots.txt文件的作用来对自己的网站进行一定的优化处理。
1. 每当一个用户试图访问一个已经不存在的URL时,服务器就会在日志中记录一个404错误(无法找到文件)。每当蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站根目录下添加一个robots.txt文件,哪怕是一个空白的robots文件也好。
2. 使蜘蛛程序远离某些服务器上的目录——保证服务器性能。避免将所有程序文件被蜘蛛索引,可以节省服务器资源。
3.robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
Sitemap: http://www.lhxuji.com/sitemap.xml //这个通告对百度有一定的作用
Google网站管理员里有一个分析robots.txt工具,可以帮助我们分析robots.txt是否成功设置了阻止Google蜘蛛对特定网页的访问,以及robots.txt是否有语法错误等等。
1. https://www.google.com/webmasters/tools/
进入后,选择你要分析的网站,然后选择工具》》分析robots.txt
2. 进入后你可以看到有关你网站的robots.txt的基本信息
3.也可以对自己写的robots.txt文件进行相关的测试,填入你写的robots.txt文件和要测试的网站(包括被你阻止的地址)保障不出差错。
我使用的robots.txt
Sitemap: http://www.lhxuji.com/sitemap.xml
User-Agent: *
Disallow: /wp-content/
robots.txt语法:http://www.baidu.com/search/robots.html