[译][新闻]你的关于硬盘相关的知识，全部都是错的！

polo_linux · #46

用Linux，还讲这些，多余吧。

adukk · #47

无语中！

科学就是大胆假设，小心求证的过程！

某位伟人教育我们：没有调查过，就没有发言权！

dineco · #48

麻木

sky.dinghong · #49

zlowly 写了：
majia1hao 写了：我不是专家，有关硬盘的相关知识少的可怜，听说过smart，但是不了解，我只知道硬盘是用来装东西的，原理是磁存储，一般是3.5寸7200转，也有2.5寸5400转的，是不是都错了？

俺们了解点知识不容易，专家一张口，全错了！国外也有砖家阿！就这耸人听闻的标题，其内容的严谨性就值得怀疑

其他的我也反驳不了，对raid有一点了解，我就想不通raid怎么更脆弱了？

因为在同一RAID卡上的两个硬盘同时失效的概率是如此之低，所以RAID5是安全的
不错，这就是raid的原理和设计思想
可是，外国砖家说
所有的硬盘来自同一制造商，尤其是当他们来自同一个批次，如果一个驱动器出故障，有可能第二个驱动器就会在此后不久出现令人不安的失效
一回事么？第一个驱动器失效之后，你不补一个硬盘上去，那还能叫raid5么？raid是让你这样用的？出了故障不处理，轻伤不下火线，那迟早得挂，什么也抗不住这样用
不知道这位有没接触过磁盘故障的服务器。

实际上因为服务器是不间断开着的，服务器机房通常也不是人办公的地方。管理员也没空一天到晚没事跑机房检查服务器状态，一两周才看看是很正常的事情，，当一个硬盘发生故障时，只要你不重启服务器，RAID使得系统仍然可以看起来运行正常（当然实际硬盘指示灯已经是表示故障了），那么很可能在几天以内还会坏多一个硬盘。即使发现了，在做恢复的过程中，继续坏硬盘也是很常见的。

我工作的地方接触到的几十台服务器，基本都是HP的服务器，但无论什么型号其中发生硬盘故障的几乎都是在发觉的时候同时坏2个硬盘以上，有些用RAID的恢复功能都救不回来数据。救援工程师的解释就是因为选择的磁盘都是同一批次的原因。所以还是磁带备份和磁盘柜可靠些。

---------------------------------
机房没有管理制度吗？
服务器的数据分分钟会贵过几条生产线。请个小女孩，每天早中晚查三次，温度湿度水电UPS，还要打扫卫生，更换备份磁带，作好机房巡检记录。发现有红灯要立马给你汇报！
一两周才看看？空调坏了，UPS停了都没人知道，那还了得？

huweimail · #50

sky.dinghong 写了：
---------------------------------
机房没有管理制度吗？
服务器的数据分分钟会贵过几条生产线。请个小女孩，每天早中晚查三次，温度湿度水电UPS，还要打扫卫生，更换备份磁带，作好机房巡检记录。发现有红灯要立马给你汇报！
一两周才看看？空调坏了，UPS停了都没人知道，那还了得？

我曾经是在机房做过的，而且是非常大的机房，里面有几十家世界500强。我们有专人每30分钟巡查一次，发现硬盘失败立即报告客户，每天更换磁带快递给客户......
结果大多数客户就是即便通知也是完全没有反应，一直到服务器完全崩溃了才跑来叫，调来的磁带数据完全颠三倒四，倒不进去，甚至一放进磁带机磁带就退不出来，各种各样稀奇古怪的事情......最好的办法，就是永远不要坏，或者3倍冗余

RAID5的安全性是不够高的，我几乎每个月都会看到RAID5崩溃，要全部重构......只能从磁带里倒数据，说真的，如果阵列里一个磁盘坏了，最佳的处理办法就是把那一批的磁盘全部换掉，我见过的无数血泪教训都说明了这一点是绝对真理！

majia1hao · #51

huweimail 写了：结果大多数客户就是即便通知也是完全没有反应，一直到服务器完全崩溃了才跑来叫，调来的磁带数据完全颠三倒四，倒不进去，甚至一放进磁带机磁带就退不出来，各种各样稀奇古怪的事情......最好的办法，就是永远不要坏，或者3倍冗余

这就叫技术不如制度，制度又不如人

哪里有100%安全的东西？

majia1hao · #52

huweimail 写了：说真的，如果阵列里一个磁盘坏了，最佳的处理办法就是把那一批的磁盘全部换掉，我见过的无数血泪教训都说明了这一点是绝对真理！

如果这个问题真是问题（血泪阿，这么大的问题），采购的时候选择不同批次的产品就行了，很难吗？就算用户做不到，集成商也不难。

ps。我没混过什么大机房，只是有两个小raid5而已。

huweimail · #53

majia1hao 写了：
如果这个问题真是问题（血泪阿，这么大的问题），采购的时候选择不同批次的产品就行了，很难吗？就算用户做不到，集成商也不难。

ps。我没混过什么大机房，只是有两个小raid5而已。

绝对的血泪！我几乎每年都见到因为阵列崩溃导致的数据丢失，而且每次都是一坏就接二连三坏好几块。我曾经尝试过提醒很多技术主管，结果都是一样，根本不相信我的话，总觉得有了阵列没问题，非得到丢饭碗的时候才后悔。

光说技术都很简单......问题是实际上企业采购环节问题最多，就跟你前面讲的一样，制度不如人

pengpeng1987 · #54

好文章，学习了很多 ${L_SMILIES_LAUGHING}$

vista1984 · #55

《微机》早就探讨过这个问题了，，现实使用时间与MTBF（无故障操作时间）相差这么大，，
1.肯定厂商没有故意造假的动机，，但厂商的测试条件过于理想（无尘无震）
2.主要问题出自渠道商，，文中采访了业内人士对运送硬盘不专业的确认（将一大包硬盘拖运，或直接从货车上往地上丢）
3. 人们的主观意识，，大部分故障发生在磨合期(指第一年，，2－4年是稳定期），夸大硬盘故障现象

现在大家就算知道了，，硬盘根本就是消耗品，，大家能做的，，就是减少不稳定因素（除尘、稳压、防震），，接着，，就拼rp了，，
至于load cycle对硬盘的损害，，我会继续查查，，不过我觉得有点大惊小怪了

bird · #56

一直用西数的飘过～～～ ${L_SMILIES_VERY_HAPPY}$

qiaomu · #57

颠覆一个概念不是一件很容易的事情,任重道远啊!

aprilangela · #58

eexpress 写了：工控机搞过的。是器件达到工业级标准而已，而不是设计达到更高层次。
所以说，这样的文章，对不熟悉的人等于白说，熟悉的，不需要说。

这话说的好，本来我也没有这种认识现在更晕菜了

millenniumdark · #59

> 硬盘温度和硬盘的工作强度(activity levels)和硬盘失效狗屁关系都没有。

这句翻译的不太妥当吧。原文是

Surprisingly, we found that temperature and activity levels were much less correlated with drive failures than previously reported

much less 不等于完全没有。

skyx · #60

millenniumdark 写了：> 硬盘温度和硬盘的工作强度(activity levels)和硬盘失效狗屁关系都没有。

这句翻译的不太妥当吧。原文是

Surprisingly, we found that temperature and activity levels were much less correlated with drive failures than previously reported

much less 不等于完全没有。

鉴于当时少数别有用心的不和谐分子以ubuntu loadcycle的问题为由，兴风作浪 ,翻译此文时带了一些不应该的主观因素。

另一方面，我的英文的确不怎么样

所以有异议的地方，请以原文为准

[译][新闻]你的关于硬盘相关的知识，全部都是错的！

估计你可能不太在机房做事，数据丢失见得少

Re: 估计你可能不太在机房做事，数据丢失见得少

Re: 估计你可能不太在机房做事，数据丢失见得少

Re: 估计你可能不太在机房做事，数据丢失见得少