[译][新闻]你的关于硬盘相关的知识,全部都是错的!

最新ubuntu/linux/开源新闻或者其它IT相关资讯
polo_linux
帖子: 35
注册时间: 2008-04-23 15:29

#46

帖子 polo_linux » 2008-05-08 9:21

用Linux,还讲这些,多余吧。
adukk
帖子: 10
注册时间: 2008-05-05 15:22
来自: 北京

#47

帖子 adukk » 2008-05-08 12:15

无语中!

科学就是大胆假设,小心求证的过程!

某位伟人教育我们:没有调查过,就没有发言权!
微软的正版验证让我发疯让我狂,Ubuntu的开源精神让我着迷让我爱。
dineco
帖子: 15
注册时间: 2008-05-08 14:29
来自: CSU

#48

帖子 dineco » 2008-05-08 14:54

麻木
sky.dinghong
帖子: 66
注册时间: 2007-01-03 8:37

#49

帖子 sky.dinghong » 2008-05-08 15:06

zlowly 写了:
majia1hao 写了:我不是专家,有关硬盘的相关知识少的可怜,听说过smart,但是不了解,我只知道硬盘是用来装东西的,原理是磁存储,一般是3.5寸7200转,也有2.5寸5400转的,是不是都错了?

俺们了解点知识不容易,专家一张口,全错了!国外也有砖家阿!就这耸人听闻的标题,其内容的严谨性就值得怀疑

其他的我也反驳不了,对raid有一点了解,我就想不通raid怎么更脆弱了?
因为在同一RAID卡上的两个硬盘同时失效的概率是如此之低,所以RAID5是安全的
不错,这就是raid的原理和设计思想
可是,外国砖家说
所有的硬盘来自同一制造商,尤其是当他们来自同一个批次,如果一个驱动器出故障,有可能第二个驱动器就会在此后不久出现令人不安的失效
一回事么?第一个驱动器失效之后,你不补一个硬盘上去,那还能叫raid5么?raid是让你这样用的?出了故障不处理,轻伤不下火线,那迟早得挂,什么也抗不住这样用
不知道这位有没接触过磁盘故障的服务器。

实际上因为服务器是不间断开着的,服务器机房通常也不是人办公的地方。管理员也没空一天到晚没事跑机房检查服务器状态,一两周才看看是很正常的事情,,当一个硬盘发生故障时,只要你不重启服务器,RAID使得系统仍然可以看起来运行正常(当然实际硬盘指示灯已经是表示故障了),那么很可能在几天以内还会坏多一个硬盘。即使发现了,在做恢复的过程中,继续坏硬盘也是很常见的。

我工作的地方接触到的几十台服务器,基本都是HP的服务器,但无论什么型号其中发生硬盘故障的几乎都是在发觉的时候同时坏2个硬盘以上,有些用RAID的恢复功能都救不回来数据。救援工程师的解释就是因为选择的磁盘都是同一批次的原因。所以还是磁带备份和磁盘柜可靠些。
---------------------------------
机房没有管理制度吗?
服务器的数据分分钟会贵过几条生产线。请个小女孩,每天早中晚查三次,温度湿度水电UPS,还要打扫卫生,更换备份磁带,作好机房巡检记录。发现有红灯要立马给你汇报!
一两周才看看?空调坏了,UPS停了都没人知道,那还了得?
huweimail
帖子: 39
注册时间: 2007-10-22 22:58

估计你可能不太在机房做事,数据丢失见得少

#50

帖子 huweimail » 2008-05-08 15:27

sky.dinghong 写了:
---------------------------------
机房没有管理制度吗?
服务器的数据分分钟会贵过几条生产线。请个小女孩,每天早中晚查三次,温度湿度水电UPS,还要打扫卫生,更换备份磁带,作好机房巡检记录。发现有红灯要立马给你汇报!
一两周才看看?空调坏了,UPS停了都没人知道,那还了得?

我曾经是在机房做过的,而且是非常大的机房,里面有几十家世界500强。我们有专人每30分钟巡查一次,发现硬盘失败立即报告客户,每天更换磁带快递给客户......
结果大多数客户就是即便通知也是完全没有反应,一直到服务器完全崩溃了才跑来叫,调来的磁带数据完全颠三倒四,倒不进去,甚至一放进磁带机磁带就退不出来,各种各样稀奇古怪的事情......最好的办法,就是永远不要坏,或者3倍冗余

RAID5的安全性是不够高的,我几乎每个月都会看到RAID5崩溃,要全部重构......只能从磁带里倒数据,说真的,如果阵列里一个磁盘坏了,最佳的处理办法就是把那一批的磁盘全部换掉,我见过的无数血泪教训都说明了这一点是绝对真理!
majia1hao
帖子: 180
注册时间: 2007-09-09 9:35

Re: 估计你可能不太在机房做事,数据丢失见得少

#51

帖子 majia1hao » 2008-05-08 20:36

huweimail 写了: 结果大多数客户就是即便通知也是完全没有反应,一直到服务器完全崩溃了才跑来叫,调来的磁带数据完全颠三倒四,倒不进去,甚至一放进磁带机磁带就退不出来,各种各样稀奇古怪的事情......最好的办法,就是永远不要坏,或者3倍冗余
这就叫技术不如制度,制度又不如人

哪里有100%安全的东西?
majia1hao
帖子: 180
注册时间: 2007-09-09 9:35

Re: 估计你可能不太在机房做事,数据丢失见得少

#52

帖子 majia1hao » 2008-05-08 20:43

huweimail 写了: 说真的,如果阵列里一个磁盘坏了,最佳的处理办法就是把那一批的磁盘全部换掉,我见过的无数血泪教训都说明了这一点是绝对真理!
如果这个问题真是问题(血泪阿,这么大的问题),采购的时候选择不同批次的产品就行了,很难吗?就算用户做不到,集成商也不难。


ps。我没混过什么大机房,只是有两个小raid5而已。
huweimail
帖子: 39
注册时间: 2007-10-22 22:58

Re: 估计你可能不太在机房做事,数据丢失见得少

#53

帖子 huweimail » 2008-05-08 23:03

majia1hao 写了:
如果这个问题真是问题(血泪阿,这么大的问题),采购的时候选择不同批次的产品就行了,很难吗?就算用户做不到,集成商也不难。

ps。我没混过什么大机房,只是有两个小raid5而已。
绝对的血泪!我几乎每年都见到因为阵列崩溃导致的数据丢失,而且每次都是一坏就接二连三坏好几块。我曾经尝试过提醒很多技术主管,结果都是一样,根本不相信我的话,总觉得有了阵列没问题,非得到丢饭碗的时候才后悔。

光说技术都很简单......问题是实际上企业采购环节问题最多,就跟你前面讲的一样,制度不如人
头像
pengpeng1987
帖子: 73
注册时间: 2008-05-06 11:02
来自: 野猪帝国

#54

帖子 pengpeng1987 » 2008-05-09 13:26

好文章,学习了很多 :lol:
vista1984
帖子: 12
注册时间: 2008-05-10 0:51

#55

帖子 vista1984 » 2008-05-12 4:19

《微机》早就探讨过这个问题了,,现实使用时间与MTBF(无故障操作时间)相差这么大,,
1.肯定厂商没有故意造假的动机,,但厂商的测试条件过于理想(无尘无震)
2.主要问题出自渠道商,,文中采访了业内人士对运送硬盘不专业的确认(将一大包硬盘拖运,或直接从货车上往地上丢)
3. 人们的主观意识,,大部分故障发生在磨合期(指第一年,,2-4年是稳定期),夸大硬盘故障现象

现在大家就算知道了,,硬盘根本就是消耗品,,大家能做的,,就是减少不稳定因素(除尘、稳压、防震),,接着,,就拼rp了,,
至于load cycle对硬盘的损害,,我会继续查查,,不过我觉得有点大惊小怪了
头像
bird
帖子: 765
注册时间: 2006-09-04 10:45
联系:

#56

帖子 bird » 2008-05-12 8:55

一直用西数的飘过~~~ :D
qiaomu
帖子: 4
注册时间: 2008-05-12 22:41

#57

帖子 qiaomu » 2008-05-12 22:56

颠覆一个概念不是一件很容易的事情,任重道远啊!
头像
aprilangela
帖子: 59
注册时间: 2006-02-13 12:18

#58

帖子 aprilangela » 2008-05-17 13:19

eexpress 写了:工控机搞过的。是器件达到工业级标准而已,而不是设计达到更高层次。
所以说,这样的文章,对不熟悉的人等于白说,熟悉的,不需要说。
这话说的好,本来我也没有这种认识 现在更晕菜了
头像
millenniumdark
论坛版主
帖子: 4159
注册时间: 2005-07-02 14:41
系统: Ubuntu 14.04 (Kylin)
联系:

#59

帖子 millenniumdark » 2008-05-25 17:36

> 硬盘温度和硬盘的工作强度(activity levels)和硬盘失效狗屁关系都没有。

这句翻译的不太妥当吧。原文是

Surprisingly, we found that temperature and activity levels were much less correlated with drive failures than previously reported

much less 不等于完全没有。
头像
skyx
论坛版主
帖子: 9202
注册时间: 2006-12-23 13:46
来自: Azores Islands
联系:

#60

帖子 skyx » 2008-05-27 21:11

millenniumdark 写了:> 硬盘温度和硬盘的工作强度(activity levels)和硬盘失效狗屁关系都没有。

这句翻译的不太妥当吧。原文是

Surprisingly, we found that temperature and activity levels were much less correlated with drive failures than previously reported

much less 不等于完全没有。
鉴于当时少数别有用心的不和谐分子以ubuntu loadcycle的问题为由,兴风作浪 ,翻译此文时带了一些不应该的主观因素。

另一方面,我的英文的确不怎么样

所以有异议的地方,请以原文为准
no security measure is worth anything if an attacker has physical access to the machine
回复