烟台论坛-烟台社区

 找回密码
 点这里注册
查看: 6111|回复: 0
打印 上一主题 下一主题
收起左侧

百度提取网站主题内容的算法

[复制链接]
跳转到指定楼层
楼主
发表于 2015-10-16 12:50 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式 | 来自河南

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?点这里注册

x
       无论是页面搜索中的排序、还是在页面主题词的确定或者其他方面都会涉及到页面主题的获取,例如在页面搜索的排序中,会将页面主题与query之间相关度越高的排在越前面,页面主题词通常从页面主题中提取等等。目前,通常简单地将页面的整个标题段(title)作为页面主题。但是页面的title中可能存在多个段落,有些段落是页面主题不相关的内容,会造成页面主题的偏移。应用在页面搜索的排序中可能不能够准确地满足用户需求,应用在页面主题词的确定中可能造成确定的页面主题词不能够准确地体现页面主题。因此对于如何能更好的分析页面主题关系成为了搜素引擎在判断一个站点在某个行业的权威性以及内容有着重要的作用!扩展阅读:算命最准的免费网站​hsm
  百度提供了一种相对于其他搜素引擎来说比较先进的提取页面主题的方法和装置,以便于减小提取的页面主题与实际页面主题的偏差。该提取页面主题的方法主要包括:A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。
  在步骤A中获取的候选段落包括以下所列的至少一个:标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。具体地,步骤B中,如果存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以预设类型的符号为分隔符对可再分段的候选段落进行分段处理。其中,预设类型的符号包括:标点符号、空格、下划线、斜线或者括号。另外,步骤C具体包括:C1、对所述步骤B之后得到的各段落进行分词处理;C2、按照公式Dij=α*Sij+β*Pij,计算分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在所述页面中出现的频次,α和β为预设的加权系数;C3、利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度。在所述步骤C3中,第i个段落的置信度Di可以为:N为第i个段落分词处理后得到的词语数目。较优地,在步骤C或者所述步骤D之前,还包括:根据预设的站点词典,将所述各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。具体地,步骤D中所述置信度要求包括:段落的置信度达到预设的置信度阈值;或者段落的置信度排在所述各段落中的前N个;或者段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
  更进一步地,该方法还包括分别对所述页面主题段落执行以下步骤:E、对所述页面主题段落进行分词处理;F、对分词处理后得到的各词语进行词性标注;G、对分词处理后得到的各词语执行以下过滤操作中的至少一个:将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;将非独立表意的词语从分词处理后得到的各词语中过滤掉;
  如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及将页面类型属性词从分词处理后得到的各词语中过滤掉;H、将分词处理后得到的各词语执行步骤G之后余下的词语确定为所述页面的主题词。其中将页面类型属性词从分词处理后得到的各词语中过滤掉包括:如果页面是预设的页面类型,则将页面的类型属性词从分词处理后得到的各词语中过滤掉;其中预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
搜素引擎提取页面主题的算法装置包括:段落获取单元、分段处理单元、置信度计算单元和主题段落确定单元;段落获取单元用于获取页面中表达页面主题的候选段落并提供给分段处理单元;分段处理单元用于将不可再分段的候选段落发送给置信度计算单元,对可再分段的候选段落进行分段处理后发送给置信度计算单元;置信度计算单元用于计算所述分段处理单元发送来的各段落的置信度;主题段落确定单元用于根据置信度计算单元的计算结果,将置信度满足预设的置信度要求的段落作为页面主题段落。
  更进一步地,该算法还包括:主题词提取单元;主题词提取单元具体包括:第二分词子单元、词性标注子单元、过滤子单元和主题词确定子单元;第二分词子单元用于对页面主题段落进行分词处理;词性标注子单元用于对分词处理后得到的各词语进行词性标注后发送给过滤子单元;过滤子单元用于对分词处理后得到的各词语执行以下过滤操作中的至少一个:将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;将非独立表意的词语从分词处理后得到的各词语中过滤掉;如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及将页面类型属性词从分词处理后得到的各词语中过滤掉;主题词确定子单元用于将过滤子单元过滤处理后余下的词语确定为页面的主题词。其中,过滤子单元如果确定页面是预设的页面类型,则将页面的类型属性词从分词处理后得到的各词语中过滤掉;其中预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
  百度主题提取计算算法在获取候选段落后,如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;再依据进一步计算出的各段落的置信度,选择满足置信度要求的段落作为页面主题段落。这种对候选段落进行进一步切分且依据置信度选择页面主题段落的方式,能够更加准确地确定页面主题段落,即减小提取的页面主题与实际页面主题的偏差。这杨当提取的页面主题段落应用在页面搜索排序中时,能够更加准确地满足用户需求;应用在页面主题词的确定中时,能够使得页面主题词更加准确地体现页面主题。
本文由:登封招聘网转载发布!
您需要登录后才可以回帖 登录 | 点这里注册

本版积分规则

社区地图 | 删帖帮助 | 手机版

烟台论坛-烟台社区 鲁ICP备05034347号 鲁公网安备 37060202000105号

免责声明:本网页提供的文字图片及视频等信息都由网友产生,本网站仅提供存储服务,如有侵犯您的知识产权,请及时与我们联系,我们将第一时间处理。

快速回复 返回顶部 返回列表 扫一扫