当前位置：首页 > 搜索引擎 > 关于百度蜘蛛在Web日志下留200 0 64的终极解答改正谬论

关于百度蜘蛛在Web日志下留200 0 64的终极解答改正谬论

时间：2012-02-25 00:33:49 作者：来源：点击：211

撰写本文的解缆点：由于最近项目改版，需要用到新的域名。于是每天起头对蜘蛛及用户的拜候日志进行阐发，以并发现不正常的请求及站内毛病。废话不多讲，直奔主题。

步调：

NO1、改版后办事器情况搭好，优化好各项配置参数并测试好对外开放新域名。

NO2、1-2天百度收录、谷歌收录。（注：在权重极高的首页挂了一下）

NO3、10天了，百度还只收录首页，内页动也不动。谷歌已经好几万了。

NO4、不雅察日志LOG，谷歌全是200 0 0状态码，百度200 0 64全是这些状态码

NO5、搜索年夜量资料阐发这些状态码。其中的资料主要来自A5和CHINAZ，发现一些底子不懂的人也在乱讲，致使搜出来的内容其实不科学占了主导意思。

网络上的主要意思年夜概有下面几个不雅点，本人一一作出解答。

1、K站的表示，这一说法主要来自被K过站的站长，然后在散播说，只要留下200 0 64 就暗示百度要K你了。

答：毛病，这只能说是一种伪科学。你有啥证据？百度官方说了吗。我们站在科学的角度阐发：200 0代表毗连成功，年夜家都明白。后面的64 查询MSDN后取得是网络不成用。本人开辟C++ 3年，C# 4年的经验判断，呈现这一现象，主要是因为网络被重置，或TCP通讯时哪一方主动被断开。因为本人所从事的工作也常常是网络开辟。只要一方不正常断开，另外一方会致使异常，法度就要去做相应的异常措置，IIS也是个法度，百度蜘蛛也是个法度。那么双方城市去措置这个异常。其中IIS日志就会记实200 0 64。本人不雅察正常的阅读器也会产生200 0 64 码，原因也是如此。只要阅读器在DEBUG时然后中断毗连，日志就会产生这种状态码。

再说，我一个新域名，也没有啥优化过度，做个啥的弊，被K啥。

2、网络广为传播的代表64位操作系统。

答：狗屎，滚蛋。中国的互联网正是因为有了你们这些人，才会有那么多的垃圾弹窗。

3、GZIP优化后，致使这一情况产生。

答：本人着重针对这一点进行阐发，GZIP的原理不说了，为什么做也不说了。那么谷歌，和市面上年夜大都阅读器也是支持GZIP的，百度的蜘蛛也是支持GZIP的。这一点可以从百度的官方取得认可，百度官方的搜索引擎优化指南也提倡这一做法。本人的办事器已经开启GZIP，取得的状态码年夜大都如下：

2012-02-23 00:11:18 W3SVC571308376 192.168.206.2 GET .***/forum.php mod=viewthread&tid=59286&extra=page%3D1&page=1& 80 - 123.125.71.98 Mozilla/5.0+（compatible;+百度spider/2.0;++.百度/search/spider.html） 200 0 64

2012-02-23 00:18:26 W3SVC571308376 192.168.206.2 GET .***/index.php - 80 - 123.125.71.110 Mozilla/5.0+（compatible;+百度spider/2.0;++.百度/search/spider.html） 200 0 64

2012-02-23 01:37:23 W3SVC571308376 192.168.206.2 GET .***/archiver/index.php action=tid&value=90013& 80 - 123.125.71.56 Mozilla/5.0+（compatible;+百度spider/2.0;++.百度/search/spider.html） 200 0 64

于是本人封闭GZIP进行跟踪不雅察，第二天发现的日志如下：

2012-02-24 01:46:05 W3SVC571308376 192.168.206.2 GET .***//archiver/index.php action=fid&value=64& 80 - 123.125.71.22 Mozilla/5.0+（compatible;+百度spider/2.0;++.百度/search/spider.html） 200 0 0

2012-02-24 01:46:08 W3SVC571308376 192.168.206.2 GET .***//plugin.php id=vgallery:vgallery&tion=view&vid=59 80 - 123.125.71.16 Mozilla/5.0+（compatible;+百度spider/2.0;++.百度/search/spider.html） 200 0 0

2012-02-24 01:38:54 W3SVC571308376 192.168.206.2 GET .***//forum.php mod=viewthread&tid=90290&extra=page%3D1&page=1& 80 - 123.125.71.114 Mozilla/5.0+（compatible;+百度spider/2.0;++.百度/search/spider.html） 200 0 0

为什么会这样子呢？我的阐发如下：

1、百度在请求页面内容的时候，取得GZIP加密串，然掉队行解密。这一过程没有实时的将剩余的资源读取完毕就干自己的事了。致使办事方呈现异常，所以产生了网络被重置，网络名不成用的日志。谷歌这一方面做的很是好，完全依照流程处事。其实这也是没有关系的。因为百度已经取得了自己想要的内容。

2、百度在请求页面内容的时候，取得GZIP加密串，解密失败。哈哈。这说不曩昔吧。这正是广年夜站长最担忧的，百度也没有诠释。我认为这点倒不致于。

3、有些人说，我没有启用GZIP为什么也会有200 0 64 ，因为蜘蛛在抓你的内容的时候，你的内容没有产生转变，它只判断内容流的前部分就直接封闭这次通讯。致使你的办事器法度呈现网络不成用或网络名不存在，也就是64。其实百度这么做是为了提高抓取效率。

分享到：