前几天写了robots.txt的法则误区并介绍百度和谷歌的robots东西的使用,介绍了几个robots.txt文件的法则的误区,然后发现其实不止那些,还有很多年夜家没有注意的误区。
今天重新枚举一下常见的robots.txt实际使用中的误区:
误区1.Allow包含的范围逾越Disallow,并且位置在Disallow前面。
比如有很多人这样写:
User-agent: *
Allow: /
Disallow: /mulu/
想让所有蜘蛛抓取本站除/mulu/下面的url之外的所有页面,制止抓取/mulu/下面的所有url。
搜索引擎蜘蛛执行的法则是从上到下,这样会造成第二句命令失效。也就是说制止抓取/mulu/目录这条法则是无效的。正确的是Disallow应该在Allow之上,这样才会生效。
误区2.Disallow命令和Allow命令之后没有以斜杠”/”开首。
这个也很容易被轻忽,比如有人这样写Disallow: 123.html ,这种是没有效果的。斜杠”/”暗示的是文件对根目录的位置,如果不带的话,自然无法判断url是哪个,所以是毛病的。
正确的应该是Disallow: /123.html,这样才能屏蔽/123.html这个文件,这条法则才能生效。
误区3.屏蔽的目录后没有带斜杠”/”。
也就是比如想屏蔽抓取/mulu/这个目录,有些人这样写Disallow: /mulu。那么这样是否正确呢?
首先这样写(Disallow: /mulu)确实可以屏蔽/mulu/下面的所有url,不过同时也屏蔽了近似/mulu123.html这种开首为/mulu的所有页面,效果同等于Disallow: /mulu*。
正确的做法是,如果只想屏蔽目录,那么必须在结尾带上斜杠”/”。
转载请注明来自逍遥博客,本文地址:http://libo搜索引擎优化/1193.html
转载请注明出处和链接!