首页 技术 正文
搜索引擎收录排序的基本原理

 2023-03-06    252  

网民通过搜索引擎检索特定信息时,检索词与检索结果往往不是一对一的关系,命中几百条甚至上千条收录结果的情况非常常见,因此需要对命中结果进行排序,称为收录排序。收录排序是一个动态计算的过程,在不考虑广告投放等外部因素影响的情况下,收录排序基本遵循相关性原则,即检索结果与用户检索意愿相关性越强,收录排序越靠前。但是,相关性的计算方法远不止一种,常见的有以下几种:


(1)关键词命中。关键词命中是最基本的信息检索方法,该方法具有原理清晰、实现简单、效率较高等优点,被各类信息检索系统广泛采用。为了进一步细分相关性,部分搜索引擎还将记录命中关键词的密度和位置,并据此调整权重,如多次命中的权重更高,在标题命中会比在页面中间命中的权重更高等等。


(2)锚文本链接解析。锚文本链接是网页超链接中的一种,通过HTML将关键词(称为“锚文本”)与链接“锚定”。锚文本链接包含了文本和链接两个部分,网民通过搜索引擎检索关键词时,若命中了文本部分的内容,则认为对应的链接具有相关性。


(3)外部引用。关键词命中和锚文本链接方法考虑的都为站内因素,虽然具有种种优势,但劣势也相当突出,网站所有者可以采取一些人为干预措施,达到操纵搜索引擎结果收录排名的效果。为了摆脱站内因素的影响,搜索引擎引入了外部引用方法,其中知名度最高的为PageRank算法[3]。PageRank又称网页排名算法、PR算法,是一种考虑站外因素的收录排序方法。该算法最早是由Google提出和采用,主要思想是利用页面的外链引用来计算权重,外链引用越多,相应页面的权重越高,排序越前。PageRank算法能够降低人为因素干扰,更符合相关性要求也更为“公平”,很多人认为PageRank是第一款真正的收录排序算法。


(4)综合因素。PageRank虽然对收录排序方法产生重大影响,但该算法考虑的情况较为单一,导致自身也出现了明显短板,例如旧页面的PageRank权重往往要比新页面高。当前搜索引擎会综合多种因素,以期更为全面、准确地计算关键词与页面的相关性。研究认为,Google当前采用了域名因素、页面权重因素、外链因素等多达200种因素[4]来综合计算页面的排名。


添加谷歌搜索留痕QQ获取更多免费工具:QQ:2843670184,

原文链接:http://rbd.lianqin.cc/jishu/19.html

=========================================

http://rbd.lianqin.cc/ 为 “谷歌留痕-外链代发” 唯一官方服务平台,请勿相信其他任何渠道。