会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 解决因办事器而致使蜘蛛抓取失败的原因

解决因办事器而致使蜘蛛抓取失败的原因

时间:2012-01-29 22:08:50   作者:   来源:   点击:

办事器是网站生存的根本,非论是什么原因造成的办事器封禁,都直接影响蜘蛛的抓取,影响网站的用户体验,晦气于搜索引擎优化工作的展开。我其将以自己的亲身经历,连络网络上一些朋友对这类问题的阐发,总结出造成办事器封禁的三点主要原因:

一、办事器不稳定

现在的办事器不可偻指算,代价也各不相同,质量方面也是相差甚远,站长们往往在选择的时候都是"只认价不认质", 有的空间商为了节流资源,用心屏蔽失落spider(蜘蛛)的IP,致使spider抓取失败,网站页面就无法被搜索引擎收录。

解决体例:选择有实力的正规空间商,尽可能包管您的网站稳定。办事器和空间的稳定性需要一定的手艺实力来保障,一些没有实力的空间商,可能无力提供杰出的办事,办事的稳定性无法包管。我们可以很形像的打个比方:如果将"人"比方为网站内容,那么办事器就是我们的"家",它为我们挡风避雨,为我们的生存提供了一个优良的情况,而办事器的吵嘴将影响我们所能承受的风险。我想,谁都不肯意住在没有平安保障的屋子里,拿自己的生命恶作剧,同理,网站也是如此!如果您现在的办事器不睬想,有需要另选时,请暂时让旧办事器能够使用一段时间,并且做301跳转,尽可能削减改换办事器带来的一系列损失。

2、人为操作失误

对搜索引擎蜘蛛认识不敷,对一些冒充搜索引擎spider的IP无法正确判断,继而误封搜索引擎IP。这样会致使搜索引擎不克不及成功抓取网站,无法成功抓取新网页,以及将之前已经成功抓取并收录的页面判定为无效链接,然后搜索引擎将会对这些死链接进行清除,继而网站页面收录削减,最终致使网站在搜索引擎的排名下降。

解决体例:正确认识各搜索引擎蜘蛛,而搜索引擎使用的 IP 地址会随时产生转变,为确保能够正确识别各搜索引擎IP,您可使用DNS反查体例来确定抓取来历的IP是否属于正规搜索引擎,避免误封。

例如查百度spider:在linux平台下,您可使用host ip命令反解ip来判断是否来自百度spide的抓取。百度spider的hostname以 *.百度 或 *.百度.jp 的格局命名,非 *.百度 或 *.百度.jp 即为冒充。

$ host 123.125.66.120

120.66.125.123.in-addr.arpa domain name pointer

百度spider-123-125-66-120.crawl.百度.

host 119.63.195.254

254.195.63.119.in-addr.arpa domain name pointer

百度Mobaider-119-63-195-254.crawl.百度.jp.

三、庇护性的偶然封禁

1、如果网站的拜候量过年夜,逾越自身负荷,办事器会按照自身负荷进行庇护性的偶然封禁。这种封禁是短暂性的,只要拜候量下降到办事器的承受范围之内,那么办事器就会正常工作。

2、还有一种情况是spider造成的,搜索引擎为了达到对目标资源较好的检索效果,蜘蛛需要对您的网站保持一定量的抓取。搜索引擎会按照办事器承受能力,网站质量,网站更新等综合因素来进行调剂, 成立一个公道的站点抓取压力。可是会有一些破例,在压力节制欠好的情况下,办事器会按照自身负荷进行庇护性的偶然封禁。

解决体例:1、如果是拜候量造成的压力,那么恭喜你,说明你的网站已经拥有可不雅的拜候人数,我们就应该升级办事器,来满足不段增长的拜候量。2、如果是spider造成的,我们可以采取如下体例来减轻spider对办事器产生的压力:A、操纵robots文件,屏蔽失落不想被spider抓取的页面。B、采取nofollow标签,屏蔽不想被spider爬行的链接。C、页面中较长的CSS、JS代码移到外部文件。D、删减多余代码。应当注意的是,以上两种情况在返回的代码中尽可能不要使用404,建议返回503(其含义是"Service Unavailable")。这样spider会过段时间再来测验测验抓取这个链接,如果那个时间站点余暇,那它就会被成功抓取了。

最后,希望站长尽可能保持站点的稳定,对暂时不想被搜索引擎抓取的页面,使用正确的返回码奉告搜索引擎,如果确实不想被搜索引擎抓取或索引,可以写robots信息奉告。

作者:奕杉其

文章来历:重庆搜索引擎优化 .137sv/搜索引擎优化technique/27.html转载请注明来历,并保存来历的完整性,谢谢。

分享到:

网友评论