会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 一个文科生对PR算法的研究

一个文科生对PR算法的研究

时间:2012-06-13 17:19:11   作者:   来源:   点击:

所有的算法城市有个假定前提,所有假定都是基于用户行为的阐发。而算法就是把这些阐发公式化。

PR算法主要基于数量假定和质量假定两个方面斟酌的。

数量假定:该页面收到越多的入链(其他网页对该页面的链接称为入链),则暗示该网页越重要。也就是一个好的页面必定会取得很多其他页面的推荐。

质量假定:指向该页面的入链的质量不合,质量高的网页会通过链接传递更多的权重,越是质量高的网页指向该页面,则暗示该页面越重要。也就是一个好的网页必定也会取得其他好的网页的认同。

通过以上两个假定,PR算法刚起头会挑选一批网页作为种子网页并付与较高的PR,通过迭代递归算法计较来更新每个页面节点的PR得分,直到得分稳定为止,即为当前页面PR得分。

PR计较出来的成果是对网页重要性的评估,作为网页排名其中的一个因素。但PR是一个全局性的算法,和具体查询无关,即和相关性无关的。PR高不克不及说明该网页相关。假定搜索引擎只用PR这一算法进行排序的话,那无论你输入任何的查询词,输出的成果都是一样的,谁PR高就谁排前面。

过度追求PR的成果往往得不偿失,PR重要吗?PR不重要吗?看果园去!

对PR来讲,一个高不是高,年夜家高才是真的高!

PR的计较很简单,假定A网页有两个出链别离毗连到B网页和C网页。假定A网页的PR值是1,那么以概率平均分派的原则,B和C网页城市平均取得0.5值的传递。这种计较体例是成立在随机游走模型上的,随机游走模型是指假定这个网页有三个出链,用户点击每个出链的概率是一样的,所以传递的PR值也是一样的。

由于网页之间是相互毗连的,所以PR不克不及一直循环传递下去,不然最后所有网页的PR值城市无穷年夜。所以PR算法引入了衰减因子的概念,便是中转的次数越多离种子网页越远,传递的PR值越少,直到传递值为0得分稳定为止。才计较最后PR得分,插手排序成果的计较中。

别的,有些网页只有入链没有出链,那么会致使积储的PR值越来越高,而不克不及传递出去。这样会违背PR的设计初志,影响公允性。这种布局被称为链接陷阱。

远程跳转是解决链接陷阱的通用体例,就是PR的传递其实不局限于出链的传递,也可以以一定的概率向任意一个页面传递PR。

PR算法作为谷歌标记性算法,早已普遍运用到反作弊傍边,即以挑选出一批作弊网页作为种子网页(挑选信任网页也亦然),赐与一定的作弊分值(或信任分值),跟PR算法一样进行传递,设定一个赏罚阀值,达到则为作弊网页。

这种反作弊是基于假定:

一、如果一个网页将其链接指向作弊网页,则这个网页很可能也是作弊网页。

2、如果一个网页被作弊网页指向,则不克不及说明这个网页是作弊的。

当然这只是最原始的反作弊思路。研究搜索引擎算法不该该只盯着公式看,要看这个算法解决了什么问题,是基于什么样的假定,这种假定是不是适适用户行为。体会了算法的前因后果,才能更好的知道搜索引擎解决问题的体例。这样才是学习搜索引擎优化的王道!

体会法则是为了更好的运用法则,避免违反法则受到赏罚。

作为一个文科生,我给年夜家最后的忠告是:珍惜生命,远离公式!!!

文章来历:光年论坛

分享到:

网友评论