布景资料:
策先生——策恩“世界名鞋淘宝客”推广年夜赛特约评委
曾于第一季推广年夜赛期间对参赛选手表示进行每周精简点评,专治疑难杂症,为一众参赛选手所知晓。为人低调且神秘,专注网站推广数年。现任第二季策恩“世界名鞋淘宝客”推广年夜赛评委,行踪不甚明朗。
说到中文分词,我感觉只要从事搜索引擎优化工作有关的朋友都应该深刻理解这一知识,理解搜索引擎是如何识别词与词之间的关系,如何判别语句的含义的。因为您只有充分的体会、贯穿应用中文分词才可以在关头词收集、阐发、布局,包含题目的攒写做得加倍驾轻就熟,才会写出加倍超卓的软文。中文分词已经是搜索引擎优化知识中的核心知识。
搜索引擎优化ER必须要理解搜索引擎是如何工作的这一点尤其重要,也是最根本的。
我们先来体会中文分词的概念,什么是中文分词?
中文分词手艺属于自然语言措置手艺范围,对一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计较机也能理解?其措置过程就是分词算法。
目前搜索引擎对中文分词可以分为三年夜类:基于字符串匹配的分词体例、基于理解的分词体例和基于统计的分词体例。
1、基于字符串匹配的分词体例
搜索引擎在接管用户搜索的时候第一个会判断用户搜索的“词”跟数据库里面的“词”是否匹配,匹配度如何来进行扫描;
依照输入的“关头词”或是“句子”不合长度优先匹配的情况,可以分为最年夜(最长)匹配和最小(最短)匹配;
如下:
1)正向最年夜匹配法(由左到右的标的目的);
例子:策恩“世界名鞋淘宝客”推广年夜赛。
正向最年夜切分出的关头词是:策恩、世界名鞋淘宝客、推广年夜赛(不上图了,年夜家百度一下,然后查看快照便可)
2)逆向最年夜匹配法(由右到左的标的目的);这个跟第一点是一样的分词体例,只是关头词的前后顺序换过来,在搜索引擎数据库查询取得的成果是一样的。
3)最少切分(使每一句中切出的词数最小);
例子:策恩“世界名鞋淘宝客”推广年夜赛
最少切分出来的词是:策恩、世界、名鞋、淘宝客、推广、年夜赛;
4)双向最年夜匹配法(进行由左到右、由右到左两次扫描)
2、基于理解的分词体例
这种分词体例是通过让计较机模拟人对句子的理解,达到识别词的效果。其根基思想就是在分词的同时进行句法、语义阐发,操纵句法信息和语义信息来措置歧义现象。这种体例一直匹敌着持久伪原创的做法,在09年一般的换换同义词,近义词的伪原创百度会收录,到了2010年伪原创的幅度需要做到更年夜才可以有效,在本年的六月底,百度的一次年夜更新事后,很多同学发现原来的收集的站,或是伪原创力度不年夜的网页内容被百度年夜量的放出来,不在收录,说明百度这一分词手艺体例越来越成熟,越来越完善了。伪原创也是越来越难了。
3、基于统计的分词体例
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时呈现的次数越多,就越有可能组成一个词。因此字与字相邻共现的频率或概率能够较好的反应成词的可托度。搜索引擎通过这一体例在“下拉框”或是“相关搜索”中可以充分提现出来。最近几年年夜家发现很多网络公司有一项业务是【刷百度相关关头词】,当用户输入某个关头词的时候,我们可以做到指定在百度下拉框呈现自己想要的关头词,操纵的就是这个基于统计的分词原理。
最后说下关头词在题目的应用,理解中文分词与网站题目的关系。
1、搜索词与网站题目完全匹配
当用户在百度搜索的时候,搜索词如果和您的网站题目完全匹配,并且你的网站也达到了一定的权重的时候就会有好的排名,这个也诠释了题目一定要呈现关头词,就是原因,反之,如果搜索的词不和您的网站题目完全匹配的时候搜索引擎就进行分词,分词的体例参与了中文分词原理的综合体例。
2、搜索词不匹配才进行分词
当词语与您的网站题目不匹配的时候就会进行分词,分词的体例会参与,正向、逆向、统计、理解、同义词、以及新词和歧义词。这个时候搜索引擎理解起来会比较难,从而影响到网页的排名;