链接分析算法之HillTop算法
Hilltop综合考虑以上三类因素,拟合出打分函数来对“专家页面”是否与用户查询相关进行打分,选出相关性分值足够高的“专家页面”,以进行下一步骤操作,即对“目标页面”进行相关性计算。 步骤二:目标页面排序 Hilltop算法包含一个基本假设,即认为一个“目标页面”如果是满足用户查询的高质量搜索结果,其充分必要条件是该“目标页面”有高质量“专家页面”链接指向。然而,这个假设并不总是成立,比如有的“专家页面”的链接所指向的“目标页面”可能与用户查询并非密切相关。所以,Hilltop算法在这个阶段需要对“专家页面”的出链仔细进行甄别,以保证选出那些和查询密切相关的目标页面。 Hilltop在本阶段是基于“专家页面”和“目标页面”之间的链接关系来进行的,在此基础上,将“专家页面”的得分传递给有链接关系的“目标页面”。传递分值之前,首先需要对链接关系进行整理,能够获得“专家页面”分值的“目标页面”需要满足以下两点要求: 条件1:至少需要两个“专家页面”有链接指向“目标页面”,而且这两个专家页面不能是“从属组织页面”,即不能来自同一网站或相关网站。如果是“从属组织页面”,则只能保留一个链接,抛弃权值低的那个链接; 条件2:“专家页面”和所指向的“目标页面”也需要符合一定要求,即这两个页面也不能是“从属组织页面”; 在步骤一,给定用户查询,Hilltop算法已经获得相关的“专家页面”及其与查询的相关度得分,在此基础上,如何对“目标页面”的相关性打分?上面列出的条件1指出,能够获得传递分值的“目标页面”一定有多个“专家页面”链接指向,所以“目标页面”所获得的总传播分值是每个有链接指向的“专家页面”所传递分值之和。而计算其中某个“专家页面”传递给“目标页面”权值的时候是这么计算的: a. 找到“专家页面” 中那些能够支配目标页面的“关键片段”集合S; b. 统计S中包含用户查询词的“关键片段”个数T,T越大传递的权值越大; c.“专家页面”传递给“目标页面”的分值为:E*T,E为专家页面本身在第一阶段计算得到的相关得分,T为b步骤计算的分值, 我们以图6-25的具体例子来说明。假设“专家页面”集合内存在一个网页P,其标题为:“奥巴马访问中国”,网页内容由一段 标签文字和另外一个单独的链接锚文字组成。该页面包含三个出链,其中两个指向“目标页面集合”中的网页,另外一个指向网页。出链对应的锚文字分别为:“奥巴马”,“中国”和“中国领导人”。 图6-25 Hilltop算法分值传递 从图示的链接关系可以看出,网页P中能够支配这个目标页面的“关键片段”集合包括:{中国领导人,中国, 奥巴马访问中国 ,标题:奥巴马访问中国}。而能够支配目标页面的“关键片段”集合包括:{奥巴马, 奥巴马访问中国 ,标题:奥巴马访问中国}。 接下来我们分析“专家页面”P在接收到查询时,是怎样将分值传递给与其有链接关系的“目标页面”的。假设系统接收到的查询请求为“奥巴马”,在接收到查询后,系统首先根据上述章节所述,找出“专家页面”并给予分值,而网页P是作为“专家页面”其中一个页面,并获得了相应的分值S,我们重点关注分值传播步骤。 对于查询“奥巴马”来说,网页P中包含这个查询词的“关键片段”集合为:{奥巴马, 奥巴马访问中国 ,标题:奥巴马访问中国},如上所述,这三个“关键片段”都能够支配页面,所以网页P传递给的分值为S*3。而对于目标页面来说,这三个“关键片段”中只有{ 奥巴马访问中国 ,标题:奥巴马访问中国}这两个能够支配目标页面,所以网页P传递给的分值为S*2。 对于包含多个查询词的用户请求,则每个查询词单独如上计算,将多个查询词的传递分值累加即可。 5. Hilltop在应用中不足 专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。Hiltop忽略了大多数非专家页面的影响。 在Hilltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。 (编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |