会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 基于Vector Space模型的关头词实战

基于Vector Space模型的关头词实战

时间:2012-05-24 18:29:58   作者:   来源:   点击:

在关头词散布策略的排名方面,除站外的锚链接增进排名以外,剩余比较重要的因素就是网站内部中的密度和散布策略了。

在之前的《TF-IDF算法在搜索引擎优化中的衍生应用》一文章中,谈到一个与密度和词频有关的算法,叫做TF-IDF。很多朋友说这篇文章依然比较深,不知道如何入手。这里我们连络该一下Vector Space Model模型,用实战来讲授关头词散布策略,由于Vector Space Model的复杂性,我对该模型就不做额外的介绍了,有兴趣的朋友可以自己查询。

同时为了便利我的博友查询词的权重情况,我做了一个excel表格,可以下载后自行更改查询关头词权重,找到最佳密度策略。

这里我们首先设定几个条件:

1.实战针对谷歌,因为谷歌对锚链接赐与的权重比较低,便利我们做测试。

2.实战采取的"关头词散布策略"这个长尾和本页面做为案例

3.实战对比的网页是:***/blog/lanzhou搜索引擎优化/keywords-fenbu/ 。该网页目前在谷歌中排名第三 在不对两个网页进行任何外链增进排名的情况下,看最终排名成果(实际中上面网页中的内容已经被转发多次,堆集了一定的页面权重)

4.谷歌的总收录量为100亿

一、分词

我们首先将该长尾区分为"关头词"、"散布"和"策略"三个词。搜索引擎中的分词体例可能与我们实际主不雅理解的不合。但为了讲授这个理念和进行这个实战,我们暂且将该长尾分为以上三个词。

分词后我们查询竞争敌手的网页,取得词频数别离为:

关头词:40次

散布:16次

策略:5次

(注:这里推荐使用《Lynx阅读器在线版》先对页面进行html到文本的转换,然后使用ctrl+f进行查找便可便利的查询多个关头词的词频)。

2、计较权重

连络TF-IDF算法我们阐发出: 这里我们取得了竞争敌手在以上长尾中的权重总得分,为3.2286。接下来我们要对我们的关头词密度做一个优化措置。

这里我帮年夜家做了一个excel表格,年夜家可以下载。表格分上下两部分,上面部分可以填入竞争敌手的情况,下面部分可以输入自己网站的情况。然后将总分值进行对比,找到适合自己网站的最佳关头词密度。

这里我略过算法部分,直接出结论:"关头词"、"散布"、"策略"这三个词,每个词呈现14次,或一起呈现14次,是最优密度,权重得分为4.0126,如果再多,就会呈现权重下降的情况。(其实依照算法,如果一起作为一个短语呈现,即便只同时呈现1次,也是同样的得分。但往往我们在网页内容创作时无法做到同时呈现,所以要别离计较关头词权重以及他们的总权重)。

下载:词权重查询表

三、散布

关于基于算法的策略,我们首先应该确定有几个处所必须呈现:

* 题目(完全匹配呈现)

* 描述(匹配呈现)

* 正文第一段落(最好完全匹配呈现)

* 正文最后段落

其次我们应该确定还有些处所应该呈现:

* 正文自然散布(可以不完全匹配)

* 图片alt描述(完全匹配呈现)

由于我是一边写作一边进行测试,现在查询了一下次数,已经全部超标。于是回头修改一下。其他朋友可以确定自己需要在文章中呈现的次数,然后再进行写作,这样会容易和简单一些。

最后值得注意的一点就是,在密度方面我们要掌握好词频的上限。一般来讲掌握在15次以下为佳。再多有堆砌作弊的嫌疑。

以上就是我在内容创作时采取的基于TF-IDF算法和Vector Space模型而采取关头词密度和别离策略。一般而言,该关头词策略对谷歌有很是好的效果(比如假象做为竞争敌手的那个页面,已经排在第三)。而对百度来讲,更注重关头词的锚文本外链。但无论如何,我们要先赢在根本和细节上。搜索引擎优化原本就是一项关乎于网站细节的工作。

分享到:

网友评论