当前位置：首页 > 搜索引擎 > 阐发搜索引擎如何首先抓取最重要的网页？

阐发搜索引擎如何首先抓取最重要的网页？

时间：2012-06-08 19:41:53 作者：来源：点击：

搜索引擎面对海量的网页，他们其实不是平行的抓取每一个网页，因为无论搜索引擎数据库怎么扩大，都是无法跟上网页的增长速度，搜索引擎会优先抓取最重要的网页，一方面节流数据库，一方面对普通的用户也是有帮忙的，因为，对用户来讲，他们其实不需要海量的成果，只需要最重要的成果。所以说一个好的搜集策略是优先搜集重要的网页，以便能够在最短的时间内把最重要的网页抓取过来。

那么搜索引擎如何首先抓取最重要的网页?

通过对海量的网页特征阐发，搜索引擎认为重要的网页有如下的根基特征，虽然不一定完全准确，可是年夜大都时候确实是这样的：

1) 网页被其他的网页链接的特点，如果被链接的次数多或被重要的网页所链接，则是很重要的网页;

2) 某网页的父网页被链接的次数多或被重要的网页所链接，比如一个网页是一个网站的内页，可是其首页被链接的次数多，而首页也链接了这个网页，则说明这个网页也比较重要;

3) 网页的内容被转载传播的广。

4) 网页的目录深度小，易于用户阅读到。这里定义“URL 目录深度”为：网页 URL 中除去域名部分的目录条理，即URL 为.domain，则目录深度为 0;如果是 .domain/cs，则目录深度为 1，一次类推。需要说明的是，URL 目录深度小的网页并不是总是重要的，目录深度年夜的网页也并不是全不重要，有些学术论文的网页 URL 就有很长的目录深度。大都重要度高的网页会同时具有上述 4 个特征。

5)优先收集网站首页，并付与首页高的权重值。网站数目远小于网页数，并且重要的网页也必定是从这些网站首页链接曩昔的，因此搜集工作应当优先取得尽可能多的网站首页。

这里问题就随之呈现，搜索引擎起头抓取网页的时候，可能既不知道网页被链接的情况也不知道被转载的情况，换句话说，最起头的时候他其实不克不及知道前面3项的特征，这些因素只能在取得网页或几近所有的 Web 链接布局之后才能够知道。那么怎么解决这个问题呢?那就是特征4和5是可以在抓取的时候就可以知道的，只有特征 4 是不需要知道网页的内容(没有抓取网页之前)便可以确定某个 URL 是否适合“重要”的标准，并且网页 URL 目录深度的计较就是对字符串的措置，统计成果表白一般的 URL 长度都小于 256 个字符，这使得 URL 目录深度的判别易于实现。所以对搜集策略的确定，特征 4 和5是最值得斟酌的指导因素。

可是，特征 4 和5具有局限性，因为链接的深度其实不克不及完全表白这个网页的重要水平。那么怎么解决这个问题?搜索引擎采取如下的体例：

1) URL 权值的设定：按照 URL 的目录深度来定，深度是多少，权值就削减多少，权值最小为零。

2) 设定 URL 初始权值为一个固定的数值。

3) URL 中呈现字符”/”，”?” ，或”&” 1 次, 则权值减一个数值，出

现”search”，”proxy”，或”gate” 1 次，则权值减一个数值;最多减到零。(包含”?”，

或”&” 的URL 是带参数的形式，需要颠末被请求体例度办事取得网页，不是搜索引擎系统偏重的静态网页，因此权值相应下降。包含”search”，”proxy”，或”gate” ，说明该网页极年夜多是搜索引擎中检索的成果页面，代办署理页面，因此要下降权值)。

4) 选择未拜候 URL 的策略。因为权值小不一定说明不重要，所以有需要

给一定的机缘搜集权值小的未拜候 URL 。选择未拜候 URL 的策略可以采取轮番的体例进行，一次依照权值排序取，一次随机取;或 N次随机选取。

当搜索引擎抓取了年夜量的网页的时候，然掉队入到一个阶段，对网页进行前面3个特征的判读，再通过年夜量的算法判断网页的质量，然后赐与相对的排名。

本文由51荷叶茶.51heyecha/站长原创提供

分享到：