撰写本文的解缆点:由于最近项目改版,需要用到新的域名。于是每天起头对蜘蛛及用户的拜候日志进行阐发,以并发现不正常的请求及站内毛病。废话不多讲,直奔主题。
步调:
NO1、改版后办事器情况搭好,优化好各项配置参数并测试好对外开放新域名。
NO2、1-2天百度收录、谷歌收录。(注:在权重极高的首页挂了一下)
NO3、10天了,百度还只收录首页,内页动也不动。谷歌已经好几万了。
NO4、不雅察日志LOG,谷歌 全是200 0 0状态码,百度200 0 64全是这些状态码
NO5、搜索年夜量资料阐发这些状态码。其中的资料主要来自A5和CHINAZ,发现一些底子不懂的人也在乱讲,致使搜出来的内容其实不科学占了主导意思。
网络上的主要意思年夜概有下面几个不雅点,本人一一作出解答。
1、K站的表示,这一说法主要来自被K过站的站长,然后在散播说,只要留下200 0 64 就暗示百度要K你了。
答:毛病,这只能说是一种伪科学。你有啥证据?百度官方说了吗。我们站在科学的角度阐发:200 0代表毗连成功,年夜家都明白。后面的64 查询MSDN后取得是网络不成用。本人开辟C++ 3年,C# 4年的经验判断,呈现这一现象,主要是因为网络被重置,或TCP通讯时哪一方主动被断开。因为本人所从事的工作也常常是网络开辟。只要一方不正常断开,另外一方会致使异常,法度就要去做相应的异常措置,IIS也是个法度,百度蜘蛛也是个法度。那么双方城市去措置这个异常。其中IIS日志就会记实200 0 64。本人不雅察正常的阅读器也会产生200 0 64 码,原因也是如此。只要阅读器在DEBUG时然后中断毗连,日志就会产生这种状态码。
再说,我一个新域名,也没有啥优化过度,做个啥的弊,被K啥。
2、网络广为传播的代表64位操作系统。
答:狗屎,滚蛋。中国的互联网正是因为有了你们这些人,才会有那么多的垃圾弹窗。
3、GZIP优化后,致使这一情况产生。
答:本人着重针对这一点进行阐发,GZIP的原理不说了,为什么做也不说了。那么谷歌,和市面上年夜大都阅读器也是支持GZIP的,百度的蜘蛛也是支持GZIP的。这一点可以从百度的官方取得认可,百度官方的搜索引擎优化指南也提倡这一做法。本人的办事器已经开启GZIP,取得的状态码年夜大都如下:
2012-02-23 00:11:18 W3SVC571308376 192.168.206.2 GET .***/forum.php mod=viewthread&tid=59286&extra=page%3D1&page=1& 80 - 123.125.71.98 Mozilla/5.0+(compatible;+百度spider/2.0;++.百度/search/spider.html) 200 0 64
2012-02-23 00:18:26 W3SVC571308376 192.168.206.2 GET .***/index.php - 80 - 123.125.71.110 Mozilla/5.0+(compatible;+百度spider/2.0;++.百度/search/spider.html) 200 0 64
2012-02-23 01:37:23 W3SVC571308376 192.168.206.2 GET .***/archiver/index.php action=tid&value=90013& 80 - 123.125.71.56 Mozilla/5.0+(compatible;+百度spider/2.0;++.百度/search/spider.html) 200 0 64
于是本人封闭GZIP进行跟踪不雅察,第二天发现的日志如下:
2012-02-24 01:46:05 W3SVC571308376 192.168.206.2 GET .***//archiver/index.php action=fid&value=64& 80 - 123.125.71.22 Mozilla/5.0+(compatible;+百度spider/2.0;++.百度/search/spider.html) 200 0 0
2012-02-24 01:46:08 W3SVC571308376 192.168.206.2 GET .***//plugin.php id=vgallery:vgallery&tion=view&vid=59 80 - 123.125.71.16 Mozilla/5.0+(compatible;+百度spider/2.0;++.百度/search/spider.html) 200 0 0
2012-02-24 01:38:54 W3SVC571308376 192.168.206.2 GET .***//forum.php mod=viewthread&tid=90290&extra=page%3D1&page=1& 80 - 123.125.71.114 Mozilla/5.0+(compatible;+百度spider/2.0;++.百度/search/spider.html) 200 0 0
为什么会这样子呢?我的阐发如下:
1、百度在请求页面内容的时候,取得GZIP加密串,然掉队行解密。这一过程没有实时的将剩余的资源读取完毕就干自己的事了。致使办事方呈现异常,所以产生了网络被重置,网络名不成用的日志。谷歌这一方面做的很是好,完全依照流程处事。其实这也是没有关系的。因为百度已经取得了自己想要的内容。
2、百度在请求页面内容的时候,取得GZIP加密串,解密失败。哈哈。这说不曩昔吧。这正是广年夜站长最担忧的,百度也没有诠释。我认为这点倒不致于。
3、有些人说,我没有启用GZIP为什么也会有200 0 64 ,因为蜘蛛在抓你的内容的时候,你的内容没有产生转变,它只判断内容流的前部分就直接封闭这次通讯。致使你的办事器法度呈现网络不成用或网络名不存在,也就是64。其实百度这么做是为了提高抓取效率。