1.用户真正的需求是什么
搜索引擎用户输入的查询请求很是简短,查询的平均长度是2.7个单词。如何从如此短的查询请求里获知隐藏其后的真实用户需求?这是搜索引擎首先需要解决的很是重要的问题。如果不克不及获得用户真正的搜索意图,搜索的准确性无从谈起,即便后续内容匹配算法再精美也无济于事。
从别的一个角度看,即便是同一个查询词,不适用户的搜索目的是不合的,如何识别这种差别?如果更进一步,即便是同一个用户发出的同一个查询词,也可能因为用户所处场景不合,其目的存在差别,又如何识别?所有这些都是搜索引擎需要解决的核心问题,即用户在此时此地发出某个查询,他的真正搜索意图事实是什么。
2.哪些信息是和用户需求真正相关的
上述第一个核心问题是从用户需求角度解缆的,别的两个核心问题则是从数据角度斟酌的。搜索引擎素质上是一个匹配过程,即海量数据里面找到能够匹配用户需求的内容。所以,在明确用户真实意图这个前提条件做到后,如何找到能够满足用户需求的信息则成为关头因素。
判断内容和用户查询关头词的相关性,一直是信息检索范畴的核心研究课题,不竭提出的信息检索模型即在试图解决这个问题。相关研究用时近60年,虽然不竭有新体例提出,检索效果总体而言也在逐渐改进,可是这个范畴的根基指导思想仍是基于关头词的匹配,包含现在所有搜索引擎的相关性计较部分,其根基计较思路和几十年前相比并没有素质差别。
3.哪些信息是用户可以信赖的
搜索素质上是找到能够满足用户需求的信息,虽然相关性是权衡信息是否满足用户需求的一个重要方面,但并不是全部。信息是否值得信赖是别的一个重要的权衡标准。
搜索引擎需要措置的信息对象是互联网上任意用户发布的内容,可是内容发布者所发布内容是否可托并没有明确判断标准。这其间存在歹意的信息发布者用心歪曲事实的情况,也有信息发布者无心的毛病。在同一个查询的搜索成果内,完全可能存在相互矛盾的搜索谜底,此时信息的可托性即成为突出问题。
从某种角度看,链接阐发之所以能够改良搜索成果,可以认为是对信息的可托赖度做出的评判。行将网页的重要性作为是否可托赖的一个判断标准,返回重要网页便是返回可托赖网页。