系统里有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链、文秘闻关性等)对n个网页有不合的打分,如何按照这些特征的"投票",选出最适合放在第一位的网页呢?
从选举的例子中,我们可以取得的几个启示:
1. 设计较法时,要避免呈现"赢者通吃"带来的信息丢失问题。
2. 不要因为某几个特征特别好,就把某个网页排到最前,或因为某几个特征特别差,就把某个网页抛弃。
3. 最适合放在首位的网页不一定是在每个特征上都最好,而应该是能够统筹所有特征,综合表示最好的那个。
4. 搜索引擎使用者对搜索成果的点击行为,可以当作是对搜索成果进行的"投票",这样的"投票"信息的使用体例,也要注意斟酌是否会带来选举过程中呈现的种种不公道。
以上提到的种种选举方案,仅仅是对"多候选人单职位的"的情况进行讨论,而搜索引擎面对的问题,则更近似于"多候选人排序"的情况,也即:
系统里有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链、文秘闻关性等)对n个网页有不合的打分,如何按照这些特征的"投票",决定n个网页的顺序?
而这个"多候选人排序"问题,是有一个"不成能的民主"的理论的,该理论的年夜意是,"公道"的民主应该满足3个条件:
1. 如果选民都认为A比B好,那么最终成果应该也是A比B好
2. 没有"专制者",也即,不存在这样一小我,无论他人怎么排序,最终成果的排序都和这小我的排序一致
3. 无关因素自力性,也即,在第一次投票完成后,A排在B前面,现在进行第二次投票,如果所有人都没有改变自己投票中A和B的相对顺序,那最终成果应该也是A在B前面
而通过数学的证明,可以得出结论:如果某种选举体例满足条件1和3,则必定不满足2,也即必定存在"专制者",这个问题的证明,可以参考这篇博客:http://roba.rushcj/?p=509
按照"不成能的民主"理论,和搜索引擎连络起来看,似乎搜索引擎很难给出一个公道的网页排序,可是搜索引擎和投票又似乎有所不合,有两个角度可以破解
1. 认为条件3过于强,需要弱化。
2. 也许在网页排序问题上,真的存在这样一个"专制特征",这个"专制特征"从目前看来,最适合的应该就是"用户满意度"了,依照用户的满意水平来排序网页,就是最公道的网页排序。如何权衡"用户满意度"呢?这就是我们一直在努力的。
by liangaili
文章来历:百度搜索研发部官方博客