197 265最后两个数字则代表着拜候和下载的数据字节数。
2.我们阐发的时候先看看状态码 200代表下载成功,304代表页面未修改,500代表办事器超时,这些是一般的其他代码可以百度一下,对不合的问题我们要措置。
3.我们要看蜘蛛常常爬取哪些页面,我们要记实下来,阐发他们为什么会常常被蜘蛛爬取,从而阐发出蜘蛛所喜欢内容。
4.有时候我们的路径不统一呈现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
5.我们阐发日志阐发时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率距离和不合目录的抓取频率距离都可以看出来,这些抓取频率距离时间是蜘蛛按照网站权重和网站更新频率来自动确定的。
6.蜘蛛对我们的页面的抓取是分品级的,是按照权重依次递减的,一般顺序为首页、目录页、内页。
7.不合IP的蜘蛛他们的抓取频率也是不相同的
IIS日志是我们阐发网站的重要参考数据,我们要常常对其进行阐发,总结经验,这样可让我们对一些问题洞若观火。
本文由.51diaoche 原创 A5首发 欢迎转载