nykpupmf367692 发表于 2015-10-15 13:28

搜索引擎怎么判断网站的相关性与可信度

    在当今的互联网中网页数量日趋庞大,为了建立网页与网页、网页与网站之间的链接关系,经常使用基于超链接和/或锚文本的链接技术。一般来说,超链接是一种对象,它以特殊编码的文本或图形的形式来实现链接,当点击该链接时,相当于指令浏览器移至同一网页内的某个位置、或打开一个新的网页、或打开一个新的WWW网站中的网页。例如,网页中的超链接大致分为绝对URL的超链接、相对URL的超链接和书签超链接。另外,超链接中的锚文本通常是对一个网页内容的高度概括描述,与该网页有着高度的内容相关性。将超链接的锚文本应用于搜索引擎,还可以基于所述锚文本进行内容相关度计算,以获取用户查询序列与网页的相关度,从而对搜索结果中的网页进行精确排名。
   因此在正常情况下,锚文本均可以对超链接指向的页面内容进行高度概括,并相当程度上反映出该页面的内容。但是互联网上存在大量的超链作弊行为,锚文本与超链接指向页面之间不再总是内容高度相关,当搜索引擎基于锚文本来获取搜索结果时,甚至还有可能出现与查询序列内容不相关而排名却很高的网页。有鉴于此,如何确定超链接的锚文本可信度,以评估和分析超链接的锚文本与超链接指向页面之间内容相关性,是搜素引擎工程技术人员迫切解决的一项课题。
   百度搜索引擎提供了一种计算机实现用于确定超链接的锚文本可信度的方法。其中该方法包括以下步骤:a获取与所述超链接相对应的锚文本;b根据所述锚文本获取与所述锚文本对应的锚文本相关信息;c根据所述锚文本相关信息加权确定所述超链接的锚文本可信度。并且还提供了一种用于确定超链接的锚文本可信度的分析设备;其中该分析设备包括:第一获取装置,用于获取与所述超链接相对应的锚文本;第二获取装置,用于根据所述锚文本获取与所述锚文本对应的锚文本相关信息;锚文本可信度确定装置用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
   与现有技术相比,基于锚文本相关信息来加权确定超链接的锚文本可信度,使超链接的锚文本与超链接指向页面之间的内容相关性更加合理。还可精确地检测作弊超链的虚假锚文本、过期超链的失效锚文本,调整基于所述锚文本可信度对包含所述虚假锚文本和失效锚文本的超链接指向页面的权威度和排名,进而提升搜索引擎搜索结果的排序质量。扩展阅读:算命最准的免费网站​hsm
   通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,其特征、目的和优点将会变得更明显:
   图1示出依据一个用于确定超链接的锚文本可信度的分析设备的结构示意图;图2示出依据优选实例用于确定超链接的锚文本可信度的分析设备的结构示意图;图3示出依据本发明另一方面的用于确定超链接的锚文本可信度的流程图;图4示出依据优选实例用于确定超链接的锚文本可信度的流程图。附图中相同或相似的附图标记代表相同或相似的部件。下面结合附图作进一步详细描述。
http://www.seodd.org/zb_users/upload/2014/1/2014010251696417.jpg
http://www.seodd.org/zb_users/upload/2014/1/2014010251696805.jpg
http://www.seodd.org/zb_users/upload/2014/1/2014010251697273.jpg
http://www.seodd.org/zb_users/upload/2014/1/2014010251697633.jpg
   图1示出依据一个用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,分析设备1包括但不限于单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散祸合的计算机集组成的一个超级虚拟计算机。参照图1,所述分析设备1包括第一获取装置11、第二获取装置12和锚文本可信度确定装置13。具体地,分析设备1的第一获取装置11获取与所述超链接相对应的锚文本;接着,第二获取装置12根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息;最后,锚文本可信度确定装置13根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
   第一获取装置m用于获取与超链接相对应的锚文本。具体地,第一获取装置m例如通过页面技术,如HTML,DHTML等页面技术,解析超链接的链接信息或者切分和提取所述超链接中的链接文字从而获取与所述超链接相对应的锚文本。在浩瀚的互联网海洋中,所有的网站都是可以互通的,而把它们链接在一起的纽带就是超链接,在所述超链接中的锚文本既可以包括一个关键词,也可以包括一句话,此时锚文本在所述超链接所在页面的作用是告知浏览者在点击该锚文本后会从当前所在页面跳转到哪里。例如,某大学的官方网站做了一个百度主页的友情链接,其具体代码为百度最好的中文搜索引擎是什么
   第二获取装置12用于根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息。具体地,通过第一获取装置11得到与所述超链接相对应的锚文本后,第二获取装置12通过诸如计算所述锚文本与所述超链接指向页面之间的关联度来获取与所述锚文本相对应的锚文本相关信息。优选地,所述锚文本相关信息包括以下至少仟一项:锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;所述锚文本与所述超链接指向页面的关联度。以所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例来举例说明,假定所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链的锚文本中绝大多数锚文本都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接文字,而当前待确定超链接的锚文本可信度的锚文本为“科研”时,计算当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例,例如,当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例非常低,那么所述超链接的锚文本可信度也相对较低。类似地,当所述锚文本相关信息包括所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例时,假定所述超链接所在页面为某大学的官方网站主页,在该大学官方网站主页的所有出链的锚文本中大多数锚文本都是类似于“高校”、“大学”、“就业率”、“招生说明”等链接文字,将所有出链的锚文本进行统计分析,计算所述超链接的锚文本在所述统计分析结果中所占比例。例如,若所述超链接的锚文本为婴儿用品,则该锚文本在所有出链的锚文本的统计分析结果中所占比例较低。再以所述锚文本相关信息包括所述锚文本与所述超链接指向页面的关联度为例,当所述锚文本与所述超链接指向页面的标题之间的关联度较高时,所述超链接的锚文本可信度相对较高;当所述锚文本与所述超链接指向页面的标题之间的关联度较低时,所述超链接的锚文本可信度相对较低。
   锚文本可信度确定装置13用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。具体地,通过第二获取装置12得到与所述锚文本相对应的锚文本相关信息后,锚文本可信度确定装置13根据所述锚文本相关信息,结合所述锚文本相关信息中每一项的权重,来加权确定所述超链接的锚文本可信度。接上例,当所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例以及所述锚文本与所述超链接指向页面的关联度时,可以结合所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例的第一权重、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例的第二权重以及所述锚文本与所述超链接指向页面的关联度的第三权重,来加权确定所述超链接的锚文本可信度。此外,上述用于确定超链接的锚文本可信度的分析设备可以与现有的搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎可以是采用已知的如百度、Google,Yahoo等搜索引擎。
   优选地,该新的搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。具体地,与现有搜索引擎相结合且用于确定超链接的锚文本可信度的搜索引擎,在为用户提供搜索结果时,还通过诸如特别字体、浮动窗口等方式,提供这些搜索结果相应的页面权威值。例如,与现有搜索引擎相结合,且用于确定超链接的锚文本可信度的搜索引擎,在根据用户的查询序列提供相应的搜索结果时,在这些搜索结果的页面说明中添加相应页面的页面权威值;进一步地,这些页面的页面权威值还可以通过特别字体或浮动窗口等方式显示,如在用户的鼠标停留在搜索结果的页面链接、或者页面说明时,以悬浮窗曰显示该停留搜索结果相应的页面权威值。
   优选地,所述分析设备1还包括第一调整装置(图1未示出),用于根据所述超链接指向页面,例如通过分析所述页面的网址或页面内容,当确定所述超链接指向页面为所述页面黑名单中的页面,或所述超链接指向页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的锚文本可信度。更优选地,所述分析设备1还包括更新装置(图1未示出),用于获取作弊页面或不良页面,根据所述作弊页面或不良页面来建立或更新所述页面黑名单。优选地,所述分析设备1还包括第四获取装置(图1未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述锚文本可信度确定装置13根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。
   优选地,所述分析设备1还包括第五获取装置(图1未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一获取装置11还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1还包括排序装置(图1未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,该技术用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。
   优选地,所述分析设备1还包括分配装置(图1未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。优选地,所述分析设备1还包括第二调整装置(图1未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中Cu为第i时刻未经调整的锚文本可信度,Ci为第i-1时刻所述超链接的锚文本可信度,λ为0至i之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所确定的第i时刻的锚文本可信度C,第i-1时刻所述超链接的锚文本可信度Ci一1,并根据公式Ci=λ× Ci-1+(1-λ)× Cu进行调整,以获得所述超链接的锚文本可信度Ci,其中,入为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度C为0.8,第i-1时刻所述超链接的锚文本可信度Ci,为0. 6,假设入取0. 25,则通过计算,所述超链接的锚文本可信度C,为0.75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。
   图2示出依据优选实施例的用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,所述分析设备1’包括但不限于单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散祸合的计算机集组成的一个超级虚拟计算机。参照图2,所述分析设备1’包括第一获取装置11'、第二获取装置12'、第三获取装置14'、锚文本可信度确定装置13'。具体地,分析设备1’的第一获取装置11’获取与所述超链接相对应的锚文本;接着,第二获取装置12’根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息;与此同时,第三获取装置14’获取与所述超链接相对应的超链接相关信息;最后锚文本可信度确定装置13’根据所述锚文本相关信息,结合所述超链接相关信息,加权确定所述超链接的锚文本可信度。也就是说,第二获取装置12’和第三获取装置14’可以并行地分别获取与所述锚文本相对应的锚文本相关信息以及与所述超链接相对应的超链接相关信息。为便于更好地描述第一获取装置11'、第二获取装置12’和锚文本可信度确定装置13’分别与图1所示的第一获取装置11,第二获取装置12和锚文本可信度确定装置13’对应,故此处不再赘述,仅通过引用的方式包含于图2所描述的优选实施例。第三获取装置14’用于获取与所述超链接相对应的超链接相关信息,并且所述锚文本可信度确定装置13’还用于根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。优选地,所述超链接相关信息包括以下至少任一项:所述超链接的产生时间;所述超链接的位置;所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。以所述超链接相关信息包括所述超链接的产生时间为例,当所述超链接与所述超链接指向页面之间的链接期限为10年,而超链接的产生时间为距离现在的时间间隔为10年以上时,根据超链接的产生时间可以确定所述超链接为过期超链接。类似地,当所述超链接位于反映所述超链接指向页面的主要内容的定语部分时,根据超链接的位置可以确定所述超链接与所述超链接指向页面的关联度。再例如,所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链中绝大多数超链接都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接信息,而当前待确定超链接的锚文本可信度的超链接为“科研”时,计算当前超链接在所有入链统计分析结果中所占比例,例如,当前超链接在所有入链统计分析结果中所占比例非常低,然后与第二获取装置12’获取的锚文本相关信息相结合,以通过锚文本可信度确定装置13’来确定超链接的锚文本可信度。类似地,当所述超链接相关信息包括所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例时,假定所述超链接所在的页面为应届大学毕业生的就业信息公共平台主页,在该就业信息公共平台主页的所有出链中绝大多数超链接都是包含“electronic","computer","research","company”等字符的超链接,将所有出链进行统计分析,计算所述超链接在所述统计分析结果中所占比例,根据比例数值来获取所述超链接相关信息。例如,若所述超链接指向的页面旨在提供婴儿用品相关服务,则该超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例较低,相应地,将所述超链接相关信息与第二获取装置12获取的锚文本相关信息相结合,例如,将与所述超链接相关信息对应的超链接比例数值结合与所述锚文本相关信息对应的锚文本比例数值,通过锚文本可信度确定装置13’来确定基于所述超链接相关信息和所述锚文本相关信息的超链接的锚文本可信度。
   优选地,在结合上述图2所描述的实施例的基础上,所述分析设备1’还包括第四获取装置(图2未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述锚文本可信度确定装置13’根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。
   优选地,所述分析设备1’还包括第五获取装置(图2未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一获取装置11’还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1’还包括排序装置(图2未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。
   优选地,所述分析设备1’还包括分配装置(图2未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。优选地,所述分析设备1’还包括第二调整装置(图2未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中, Cu为第i时刻未经调整的锚文本可信度,Ci,为第i-1时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所确定的第i时刻的锚文本可信度C,第i-1时刻所述超链接的锚文本可信度Ci一1,并根据公式Ci=λ× Ci-1+(1-λ)× Cu进行调整,以获得所述超链接的锚文本可信度Ci,其中,入为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度C为0.8,第i-1时刻所述超链接的锚文本可信度Ci,为0. 6,假设入取0.25,则通过计算,所述超链接的锚文本可信度C,为0.75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。







本文由:登封招聘网转载发布!
页: [1]
查看完整版本: 搜索引擎怎么判断网站的相关性与可信度