信息指纹:就是提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹信息指纹可以用于去重,不过这个也是到现在才有所清楚.信息指纹的定义:任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint),这个随机数就是信息指纹.网络爬虫在下载网页时,它将访问过的网页的网址都变成一个个信息指纹,存到哈希表中,每当遇到一个新网址时,计算机就计算出它的指纹,然后比较该指纹是否已经在哈希表中,来决定是否下载这个网页。这种整数的查找比原来字符串查找,可以快几倍到几十倍。
基于指纹信息的方法主要是在网页中抽取特征,通过特征匹配的方法,来确定网页是否重复。对于指纹信息的抽取研究的很多,它的目的也就是尽量抽取的指纹信息受噪音信息干扰越少越好,这样就尽可能避免噪音信息对准确率的影响。抽取出指纹信息后。因为指纹信息本身就是表征网页的,所以通过对指纹信息的比较,就可以达到对网页去重的目的。这种方法要较之聚类等方法速度更快,因为它所用的信息更少,可能是一段文字,而不是整篇文章,准确率也更高,因为它在选取指纹信息的过程中会尽量地避免网页噪音信息的干扰。注意:聚类方法不合适,因为每次新来网页可能会使得聚类的中心发生变化,代价太大,同时还存在两两比对的情,这个效率也很低,所以就排除了.