B、数据预措置模块还会对原始数据中的图片URL发送请求获得图片,然后计较其基于DCT的感知哈希值,哈希值用于后面核心调剂模块选择图片的时候对比图片之间的汉明距离,从而决定选取哪些图片给"判断者";
(2)核心调剂:
A、核心调剂模块的第一个功能是为"描述者"选择展示图片,当一个用户作为"描述者"插手系统之后,核心调剂模块会为其随机挑选100张图片;
B、核心调剂模块的第二个功能是为"描述者"标注的图片找到一个或多个"判断者","判断者"是随机选取的,和"描述者"之间互不认识,并且选取的"判断者"的IP在物理距离上离"描述者"比较远,并且会优先选择之前未判断过该图片的"判断者";
C、核心调剂模块的第三个功能是为"判断者"提供标注文字、标注文字对应的图片以及颠末组合搜索和相似度计较之后挑选出来的别的几张图片,首先核心模块会将标注文字进行切词和关头字提取,然后对关头字进行一组随机组合之后从系统中检索出相关的候选图片,按照这些图片的感知哈希值挑选出和标注文字对应图片的汉明距离逾越阈值的图片,避免呈现极端相似甚至相同的图片(图片的感知哈希值是之前通过"数据预措置"计较得出的)。
(3)标注办理:
标注办理负责将用户的标注数据更新到后台标注数据集中,数据是以图片的URL作为Key,一个图片可以对应多段标注文字(如表1),每段标注文字可以被多个"判断者"判断,系统会记实每个"判断者"的判断成果(如表2):
【说明】:表1和表2只列出关头的数据字段,实际系统中会包含标注时间、判断时间、标注IP、判断IP等等更多的信息,这些信息会用于系统防作弊;
【文章小结】:
通过本文所描述的标注游戏能够快速地取得年夜量较为准确的图片标注信息,对提高图片搜索效果有很年夜的作用,体现在两个方面:
(1)图片搜索准确率:由于引入切确度较高的标注数据,使得图片的信息更加全面,搜索准确度更高;
(2)图片搜索召回率:对没有"周边文本"的图片,原来比较难在搜索引擎中被索引,通过标注系统标注之后能够索引建库,从而提高图片的召回率。
游戏采取的标注体例具有如下特点:
(1)防标注作弊功能:由于"描述者"和"判断者"是通过系统的"核心调剂"模块依照一定的算法进行选取,使得用户作弊的本钱很高,从而避免了用户作弊行为,使得最终的图片标注数据准确度较高;
(2)对用户标注进行有效的引导,使得用户标注出更加邃密的,有区分度的标注信息,系统通过对标注文字进行切词提取出关头字,并对关头字进行多组组合之后从图片数据库中提取出相关图片,并且通过感知哈希函数计较汉明距离,从而消除相似度极高甚至一样的图片,使得提供给"判断者"的图片具有区分度,也能够促使"描述者"进一步切确标注图片。
by ruanxinghua
文章来历:百度搜索研发部官方博客