有没有在一个目录十几万个文件里面搜索所有相同的文件方法 (已找到很多解决方案)

新手涉及到的教学或入门贴,推荐新手必看,版主维护
头像
xiehuoli
帖子: 5941
注册时间: 2006-06-10 8:43
来自: 中国 CS

有没有在一个目录十几万个文件里面搜索所有相同的文件方法 (已找到很多解决方案)

#1

帖子 xiehuoli » 2007-11-08 9:04

有没有在一个目录,十几万个文件里面搜索所有相同的文件方法
并把它归类出来
尝试用find不行。
如果有软件也行,软件最好
懂的知会一声,谢谢。
上次由 xiehuoli 在 2007-11-09 16:48,总共编辑 1 次。
年轻没有失败! ! ! ! ! !
噢!有怪兽,有怪兽!
sqlfm
帖子: 356
注册时间: 2007-02-15 6:26

#2

帖子 sqlfm » 2007-11-08 9:17

相同意思是什么?

如果是 txt html doc ... 之类,可以用PHP 写个小程式 (PDF/IMAGE的话, 没测试过)
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

#3

帖子 eexpress » 2007-11-08 9:17

照片?那gqview有多级别的比较照片的功能。
其他文件?那不知道了。
文本?你建立一个svn。。。。也不知道如何搞。
● 鸣学
头像
bones7456
帖子: 8495
注册时间: 2006-04-12 20:05
来自: 杭州
联系:

Re: 有没有在一个目录十几万个文件里面搜索所有相同的文件方法

#4

帖子 bones7456 » 2007-11-08 9:20

xiehuoli 写了:有没有在一个目录,十几万个文件里面搜索所有相同的文件方法
并把它归类出来
尝试用find不行。
如果有软件也行,软件最好
懂的知会一声,谢谢。
相同的文件?不懂啊,是指里面的内容相同吗?是文本文件吗?估计写个 shell script 可以搞定的吧..
关注我的blog: ε==3
头像
ofewiofewo
帖子: 547
注册时间: 2007-06-02 14:56

#5

帖子 ofewiofewo » 2007-11-08 9:28

一种方法:find + md5sum ,根据md5判断重复文件
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

#6

帖子 eexpress » 2007-11-08 9:29

这妹托疯了。巨大的索引。md5会想死的。随便几个电影目录,你就别做事了。
● 鸣学
头像
ofewiofewo
帖子: 547
注册时间: 2007-06-02 14:56

#7

帖子 ofewiofewo » 2007-11-08 9:35

十几万部电影 ? :lol:
lz那估计是服务器吧,使劲折腾
头像
yaoms
帖子: 4952
注册时间: 2007-10-19 14:51
来自: 深圳

#8

帖子 yaoms » 2007-11-08 9:54

find /your/dir/ -type f -exec ls -l {} \; | awk '{print $5 "\t" $8}' | sort > list.txt

list.txt 中大小相同的在一起,然后再想办法用md5sum比较。。 :)
上次由 yaoms 在 2007-11-08 9:54,总共编辑 1 次。
ltkun
帖子: 1340
注册时间: 2006-01-10 19:09

#9

帖子 ltkun » 2007-11-08 9:54

用hash呢
头像
xiehuoli
帖子: 5941
注册时间: 2006-06-10 8:43
来自: 中国 CS

#10

帖子 xiehuoli » 2007-11-08 10:57

是内容和名字 都一样
不一定是文本文件,只要内容相同的,都要找出来
年轻没有失败! ! ! ! ! !
噢!有怪兽,有怪兽!
头像
yiding_he
帖子: 2677
注册时间: 2006-10-25 18:10
来自: 长沙
联系:

#11

帖子 yiding_he » 2007-11-08 11:01

同一目录下,内容一样的文件,有可能;但是名字一样的,可能吗?
头像
xiehuoli
帖子: 5941
注册时间: 2006-06-10 8:43
来自: 中国 CS

#12

帖子 xiehuoli » 2007-11-08 11:27

yiding_he 写了:同一目录下,内容一样的文件,有可能;但是名字一样的,可能吗?
可能,因为还有子文件夹
年轻没有失败! ! ! ! ! !
噢!有怪兽,有怪兽!
头像
bones7456
帖子: 8495
注册时间: 2006-04-12 20:05
来自: 杭州
联系:

#13

帖子 bones7456 » 2007-11-08 11:27

xiehuoli 写了:是内容和名字 都一样
不一定是文本文件,只要内容相同的,都要找出来
你的意思是同个目录下有很多子目录,然后各子目录里面有同名的又同内容的文件,是吗?
写脚本吧~

问题是你找出来以后想怎么处理呢?
关注我的blog: ε==3
头像
leeaman
帖子: 30702
注册时间: 2007-02-02 18:14
系统: debian sid

#14

帖子 leeaman » 2007-11-08 11:29

傻瓜建议:先找名字一样 大小一样的找出来再说,能满足这两个条件的恐怕都不是很多了,不过这个只能是用来找文件而已,如果要做什么自动处理的话,那还要把符合上面两个条件的文件在比较过才行
醉了星星,醉月亮●●●●●The Long Way To Go(*^_^*)
头像
xiehuoli
帖子: 5941
注册时间: 2006-06-10 8:43
来自: 中国 CS

#15

帖子 xiehuoli » 2007-11-08 11:38

bones7456 写了:
xiehuoli 写了:是内容和名字 都一样
不一定是文本文件,只要内容相同的,都要找出来
你的意思是同个目录下有很多子目录,然后各子目录里面有同名的又同内容的文件,是吗?
写脚本吧~

问题是你找出来以后想怎么处理呢?
先找出来
等上头通知在处理
年轻没有失败! ! ! ! ! !
噢!有怪兽,有怪兽!
回复