2016-02-15
当前位置: ㊣苏云田博客 > SEO > 文章正文

相似文本判断 Shingle算法

0

网页查重技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。
1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。
1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书馆”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被应用到搜索引擎中,基本的核心技术相似。
Shingle算法是抽取多个特征进行比较,处理起来比较复杂一些,比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种方法计算出的数值为“Jaccard系数”,它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。
Shingle [ˈʃɪŋgəl]在英文中表示相互覆盖的瓦片。先通过一个例子来说明Shingle算法:
假设有A、B两个文档的标题,A文档的标题是:明起电话订火车票可全国通取取票时间延12小时;B文档的标题是:火车票电话订票实现全国通取网上预售期延长。
搜索引擎如何知道这两篇文档标题是否是重复的?比如我们可以以2个汉字切为一个Shingle的方法:

Shingle算法

Shingle算法

Post a Comment

您的昵称 *

您的邮箱 *

您的网站