加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

网站里重复的网页内容是非常有害的

发布时间:2022-03-05 02:15:36 所属栏目:优化 来源:互联网
导读:对于搜索引擎来说,重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验
  对于搜索引擎来说,重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。
  网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。
 
  1993年arizona大学的manber(google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年stanford大学的brin(sergey brin,google创始人之一)和garcia-molina等人在“数字图书观”工程中首次提出文本复制检测机制cops(copy protection system)系统与相应算法[sergey brin et al 1995].之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。
 
 
  实现方法:
 
  网页查重,首先将网页整理成为一个具有标题和正文的文档,来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤,
 
  一、特征抽取。
 
  二、相似度计算和评价。
 
  三、消重。
 
  1.特征抽取我们在判断相似物的时候,一般是才能用不变的特征进行对比,文件查重第一步也是进行特征抽取。也就是将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度。特征抽取有很多方法,我们这里主要说两种比较经典的算法,“i-match算法”、“shingle算法”。“i-match算法”是不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。“shingle算法”通过抽取多个特征词汇,比较两个特征集合的相似程度实现文档查重。
 
  2.相似度计算和评价特征抽取完毕后,就需要进行特征对比,因网页查重第二步就是相似度计算和评价。i-match算法的特征只有一个,当输入一篇文档,根据词汇的idf值(逆文本频率指数,inverse document frequency缩写为idf)过滤出一些关键特征,即一篇文章中特别高和特别低频的词汇往往不能反应这篇文章的本质。因此通过文档中去掉高频和低频词汇,并且计算出这篇文档的唯一的hash值(hash简单的说就是把数据值映射为地址。把数据值作为输入,经计算后即可得到地址值。),那些hash值相同的文档就是重复的。
 
 
   3.消重对于删除重复内容,搜索引擎考虑到众多收录因素,所以使用了最简单的最实用的方法。先被爬虫抓取的页面同时很大程度也保证了优先保留原创网页。

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读