中国人有句话叫“天下文章一大抄?#20445;?#20294;是在正规场合下“抄”是要付出代价的,比如考试、写论文是不能抄的,一旦被发现后果相当严重。在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。

enter image description here

我在猿人学网站上写了一个《大规模异步新闻爬虫》的Python爬虫教程,里面涉及了如何抓取网页、如何提取正文内容,却没有将如何去重。中文新闻网站的“转载?#20445;?#20854;实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别?#20013;?#25913;。所以,对新闻网页的去重很有必要。

文章分三部分:去重算法原理、算法实现、以及使用方法

由于篇幅有限,感兴趣的可以点击原文查看