矮人村

标题: 索引建立方法、搜索方法和搜索结果排序方法及对应的算法处理机制 ... [打印本页]

作者: hesuo    时间: 2018-3-8 23:42
标题: 索引建立方法、搜索方法和搜索结果排序方法及对应的算法处理机制 ...
现有的搜索技术中,召回的搜索结果中可能有的页面与用户输入query的关键词相关度较低,因此在对搜索结果进行排序时,主要基于搜索结果中页面的特征向量与query的相关度进行将特征向量与query的相关度高的搜索结果排在前面。然而现有的排序方式仍然会存在搜索准确性低的问题。例如,用户输入的query为“刘德华出生日期”,搜索引擎在召回页面时,可能存在一些页面中虽然包含“刘德华”和“出生日期”,但两者之间是毫无关系的,而显然用户需求的页面是“出生日期”作为“刘德华”的属 性的,这在现有的搜索方法中并无法识别和满足,搜索准确性很低,搜索效果较差。

  百度搜索算法工程师经过多年不断的改进,提供了一种索引建立方法、搜索方法和搜索结果排序方法及对应的算法处理机制,以便于提高搜索的准确性,改善搜索效果。该索引建立方法包括:

  A、对页面进行分词和词性标注;

  B、基于语义分析或页面中的视觉特征中的至少一种,从分词处理后得到的各词语中确定实体词以及该实体词对应的属性词并分别进行标注;

  C、在建立所述页面的索引时,将建立索引所使用词语具有的实体词或属性词标注同时添加入索引中。

  步骤B中基于语义分析处理算法,从分词处理后得到的各词语中确定实体词具体包括:将页面词条中的名词、被识别为页面主题词的名词、作为句子中心词的名词、在页面的出现频次在预设范围内的名词或者页面中的命名实体确定为实体词。从分词处理后得到的各词语中确定实体词对应的属性词具体包括:依据上下文关系,将分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者依据预设的语义模板,从分词处理后得到的各词语中确定实体词对应的属性词,预设的语义模板中包含实体词与属性词构成的各种句式结构。

  其中页面中的视觉特征包括:逻辑块、逻辑块与逻辑块之间的距离、背景颜色、字体颜色和大小、边框、符号或者表格;步骤B中基于页面中的视觉特征,从分词处理后得到的各词语中确定实体词以及实体词对应的属性词具体包括:将页面中具有预设视觉特征的词语确定为实体词或属性词。更优地,添加到索引中的还包括以下标注中的至少一种:实体词与属性词之间对应关系的标注;以及属性词的属性类型标注;实体词具有突出的视觉特征标注;以及属性词具有突出的视觉特征标注。

  百度在计算处理用户搜索的方法包括:

  A、对接收到的搜索请求query进行分词和词性标注;

  B、基于语义分析,从分词处理后得到的各词语中确定实体词以及该实体词 对应的属性词并分别进行标注;

  C、查找与分词处理后得到的各词语以及各词语的标注相匹配的索引对应的 页面,其中各词语的标注为各词语的实体词或属性词标注,所述索引采用上述 索引建立方法建立;

  D、将查找到的页面包含在所述query的搜索结果中。

  较优地,在步骤A和步骤B之间还包括:基于预设的停用词表对分词处理后得到的各词语进行过滤处理,过滤掉停用词表中包含的词语;而一般停用词表中包含以下所列的至少一种:副词、虚词、助词、疑问词、 语气词、代词。

  具体地,步骤B中基于语义分析,从分词处理后得到的各词语中确定实体词包括:将作为query中心词的名词或者query中的命名实体确定为实体词。步骤B中基于语义分析算法中的从分词处理后得到的各词语中确定实体词对应的属性词具体包括:依据上下文关系,将所述分词处理后得到的各词语中与实体词的属性关系概率达到预设属性概率阈值的词语作为该实体词的属性词;或者依据预设的语义模板,从所述分词处理后得到的各词语中确定实体词对应的属性词,所述语义模板中包含实体词与属性词构成的各种句式结构。




欢迎光临 矮人村 (http://airencun.com/) Powered by Discuz! X3.1