判断大量文件，从中找出重复的文件，一般用什么算法比较合适？

This topic created in 3144 days ago, the information mentioned may be changed or developed.

CRC32 ？ MD5 ？ SHA256 ？还是一般组合起来用？就是想知道正规的做法是怎样的？

顺便问一下，有什么办法获取文件指纹的算法效率能高一点？

7 replies • 2017-11-23 00:41:37 +08:00

wsy2220

Nov 20, 2017

apt-get install fdupes

exch4nge

Nov 20, 2017

我觉得瓶颈应该在磁盘 IO 吧……
先按大小分，然后 sha 存入哈希表（ C++的话 unordered_multimap ）

lerry

Nov 20, 2017

github 上看到过有这种项目，现在找不到了，我记得是这样，
先比较文件大小，相同的再用速度快的散列算法比如 md4,如果再相同再用 sha1
兼顾效率和准确性

msg7086

Nov 20, 2017

先比较大小，再快速比较文件特征（比如前 1MB+尾 1MB 的 hash ），再全文件 Hash。

neosfung

Nov 20, 2017 via iPhone

文本文件还是二进制文件？

Arnie97

Nov 21, 2017 via Android

Windows 用户可以用这个： http://schinagl.priv.at/nt/dupemerge/dupemerge.html
（我是跟着他家另一款软件 http://schinagl.priv.at/nt/hardlinkshellext/hardlinkshellext.html 找到这里的，在资源管理器右键菜单中加入软硬链接的选项，很好用）

suliuyes

Nov 23, 2017

@exch4nge
@lerry
@msg7086 感谢思路！🙏