用node.js爬虫爬了不少图片之后,尽管经过了简单的处理,但是图片重复率还是很高的。 本来打算用node继续写一个去重脚本,可是node处理图片的API文档不太足,也不是太简单,自己也不会用,还是回到了java写一个class一下吧。 对于图片来说,暴力hash算法是不可取的,因为只要有一个小像素点的改变,就导致不一样的hash。 网上查验得知可以用DHash算法,一种相对Hash ...
用node.js爬虫爬了不少图片之后,尽管经过了简单的处理,但是图片重复率还是很高的。 本来打算用node继续写一个去重脚本,可是node处理图片的API文档不太足,也不是太简单,自己也不会用,还是回到了java写一个class一下吧。 对于图片来说,暴力hash算法是不可取的,因为只要有一个小像素点的改变,就导致不一样的hash。 网上查验得知可以用DHash算法,一种相对Hash ...