会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 操纵TF-IDF诠释“搜索引擎优化诊断”排名现象

操纵TF-IDF诠释“搜索引擎优化诊断”排名现象

时间:2012-06-13 17:19:13   作者:   来源:   点击:

TF-IDF算法已经被很多专业的搜索引擎优化工作者所熟知,它是一种用于资讯检索与资讯探勘的常常使用加权手艺,运用到网页阐发中就是对网页中的相关关头词进行加权,阐发众多网页中某个特定关头词的相关网页关头词权值,并在最后的排序算法中赐与科学的依据。

首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。为什么要阐发这个公式呢?因为一个网页的TF-IDF值越年夜,网页中文本内容与索引词越相关,其能够在搜索引擎上取得的权值就越高,对后期的网页的排序能够提供很年夜的支持。

TF*IDF中TF词频(Term Frequency),暗示词条在某个文档中呈现的频率,而IDF反文档频率(Inverse Document Frequency)暗示如果包含词条t的文档个数越少,IDF越年夜,则说明词条t具有很好的种别区分能力,用公式暗示IDF可以写为:IDF(t) = log(N / DF(t))。DF(t)暗示包含有某个搜索词(以t为代表)的文档数,N暗示互联网的总网页数。

看这些概念很难理解透彻,给年夜家举一个例子,年夜家就可以够很好地明白了。

操纵TF-IDF诠释"搜索引擎优化诊断"排名现象

例如"搜索引擎优化诊断"这个关头词的网页排序,我们查排名前十中三个网站关于这个词相关词语的一些词频展现阐发:

排在第二的是站长网的搜索引擎优化诊断,他们的"搜索引擎优化"和"诊断"的词频别离是41和46,"搜索引擎优化诊断"的词频是20;

排在第三的网站是长沙的一家公司,他们的"搜索引擎优化"和"诊断"的词频别离是12和4,"搜索引擎优化诊断"的词频是1;

我的细嗅蔷薇博客排名排名第十,网站中"搜索引擎优化"词频最高,达到84,"诊断"的词频是7,"搜索引擎优化诊断"的词频是4。

搜索查看有关于"搜索引擎优化诊断"的页面约1,530,000个,"搜索引擎优化"和"诊断"是百度上限约100,000,000个,取N=10000亿。所以三个网页三个关头词的TF*IDF值做下面的计较:

1、先计较三个词的IDF值:

搜索引擎优化:IDF= log(N / DF(t))= log(10000/1)=4

诊断:IDF= log(N / DF(t))= log(10000/1)=4

搜索引擎优化诊断:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6

2、计较三个词的TF值:

三站的关头词搜索引擎优化的TF值:

长沙:TF= log(TF(t,d))= log12≈1.1

站长网:TF= log(TF(t,d))= log41≈1.64

细嗅蔷薇:TF= log(TF(t,d))= log84≈1.92

三站的关头词诊断的TF值:

长沙:TF= log(TF(t,d))= log4≈0.63

站长网:TF= log(TF(t,d))= log46≈1.68

细嗅蔷薇:TF= log(TF(t,d))= log7≈0.84

三站的关头词搜索引擎优化诊断的TF值:

长沙:TF= log(TF(t,d))= log1=0

站长网:TF= log(TF(t,d))= log20≈1.45

细嗅蔷薇:TF= log(TF(t,d))= log4≈0.63

3、三个站三个词的TF*IDF值为:

TF*IDF值搜索引擎优化诊断搜索引擎优化诊断

长沙站5.13.521

站长网7.567.729.7

细嗅蔷薇8.684.464.78

从上面的表格中我们可以清晰的看出,我的博客"搜索引擎优化"的TF*IDF值最高,站长网的"诊断"和"搜索引擎优化诊断"TF*IDF值最高。

如果纯真从TF*IDF值计较出来的相关性来讲,"搜索引擎优化诊断"这个词的排名站长网的相关性是最高的,应该取得更好的排名,我的博客排名应该在二者之间(前天的排名的确在二者之间),长沙站应该在最后,可是和实际的成果看来是有一定的差距的。这说明网站网页排名的因素还有其他的一些比较重要的因素,例如网站整体权重,单个网页权重和质量,外部链接,和用户的交互(即用户体验),这些都是我们需要斟酌的。

别的,同一个网站相比较来看TF*IDF值,长沙站和我的细嗅蔷薇博客要提升排名,对关头词"搜索引擎优化"排名的要求就比较高,"搜索引擎优化"排名起决定性作用,而站长网中"搜索引擎优化诊断"的排名起到决定性的作用,关头词"搜索引擎优化"排名对其排名波动影响要小。这一点有一定的按照,例如前天我的博客"搜索引擎优化诊断"排名第三,那时"搜索引擎优化"关头词排名第十页,现在失落到了23页,排名就下降到第十,所以多运用TF*IDF研究能够帮忙我们发现很多关头词排名现象,并针对性的制定搜索引擎优化优化策略。

分享到:

网友评论