OT: Doppelte Images finden - the technology behind

Steffen Ille steffenille at web.de
Do Apr 26 10:23:42 CEST 2007


Jan-Benedict Glaw schrieb:
> On Thu, 2007-04-26 09:40:42 +0200, Steffen Ille <steffenille at web.de> wrote:
>   
>> gegeben sind ein oder mehrere Verzeichnisse auf einer Linux-Kiste mit 
>> jeder Menge (50.000+)
>> Bildern. Mit Tools wie "fdupes" findet man einige doppelte Files, weil 
>> ein MD5 Hash zum Vergleich
>> genutzt wird. Bei Dateien (Binaries, Word, etc.) ist das sinnvoll, bei 
>> Bildern nur bedingt. Wenn
>> ich auch Bilder finden will, die zu X % ähnlich sind (gedreht, 
>> verkleinert, etc) nützt MD5 nichts.
>>     
>
> jbglaw at d2:~$ apt-cache search find compare similar images
> findimagedupes - Finds visually similar or duplicate images
> jbglaw at d2:~$ apt-cache show findimagedupes|grep '^ '
>  findimagedupes is a commandline utility which performs a rough
>  "visual diff" to two images. This allows you to compare two
>  images or a whole tree of images and determine if any are
>  similar or identical. On common image types, findimagedupes
>  seems to be around 98% accurate.
>  .
>  Homepage: http://www.jhnc.org/findimagedupes/
>   
... und genau das habe ich gesucht. Dort steht der Kram zu dem 
Algorithmus!!!
Super Dankeschön!