[译][新闻]你的关于硬盘相关的知识,全部都是错的!
-
- 帖子: 35
- 注册时间: 2008-04-23 15:29
-
- 帖子: 10
- 注册时间: 2008-05-05 15:22
- 来自: 北京
-
- 帖子: 66
- 注册时间: 2007-01-03 8:37
---------------------------------zlowly 写了:不知道这位有没接触过磁盘故障的服务器。majia1hao 写了:我不是专家,有关硬盘的相关知识少的可怜,听说过smart,但是不了解,我只知道硬盘是用来装东西的,原理是磁存储,一般是3.5寸7200转,也有2.5寸5400转的,是不是都错了?
俺们了解点知识不容易,专家一张口,全错了!国外也有砖家阿!就这耸人听闻的标题,其内容的严谨性就值得怀疑
其他的我也反驳不了,对raid有一点了解,我就想不通raid怎么更脆弱了?
不错,这就是raid的原理和设计思想因为在同一RAID卡上的两个硬盘同时失效的概率是如此之低,所以RAID5是安全的
可是,外国砖家说一回事么?第一个驱动器失效之后,你不补一个硬盘上去,那还能叫raid5么?raid是让你这样用的?出了故障不处理,轻伤不下火线,那迟早得挂,什么也抗不住这样用所有的硬盘来自同一制造商,尤其是当他们来自同一个批次,如果一个驱动器出故障,有可能第二个驱动器就会在此后不久出现令人不安的失效
实际上因为服务器是不间断开着的,服务器机房通常也不是人办公的地方。管理员也没空一天到晚没事跑机房检查服务器状态,一两周才看看是很正常的事情,,当一个硬盘发生故障时,只要你不重启服务器,RAID使得系统仍然可以看起来运行正常(当然实际硬盘指示灯已经是表示故障了),那么很可能在几天以内还会坏多一个硬盘。即使发现了,在做恢复的过程中,继续坏硬盘也是很常见的。
我工作的地方接触到的几十台服务器,基本都是HP的服务器,但无论什么型号其中发生硬盘故障的几乎都是在发觉的时候同时坏2个硬盘以上,有些用RAID的恢复功能都救不回来数据。救援工程师的解释就是因为选择的磁盘都是同一批次的原因。所以还是磁带备份和磁盘柜可靠些。
机房没有管理制度吗?
服务器的数据分分钟会贵过几条生产线。请个小女孩,每天早中晚查三次,温度湿度水电UPS,还要打扫卫生,更换备份磁带,作好机房巡检记录。发现有红灯要立马给你汇报!
一两周才看看?空调坏了,UPS停了都没人知道,那还了得?
-
- 帖子: 39
- 注册时间: 2007-10-22 22:58
估计你可能不太在机房做事,数据丢失见得少
sky.dinghong 写了:
---------------------------------
机房没有管理制度吗?
服务器的数据分分钟会贵过几条生产线。请个小女孩,每天早中晚查三次,温度湿度水电UPS,还要打扫卫生,更换备份磁带,作好机房巡检记录。发现有红灯要立马给你汇报!
一两周才看看?空调坏了,UPS停了都没人知道,那还了得?
我曾经是在机房做过的,而且是非常大的机房,里面有几十家世界500强。我们有专人每30分钟巡查一次,发现硬盘失败立即报告客户,每天更换磁带快递给客户......
结果大多数客户就是即便通知也是完全没有反应,一直到服务器完全崩溃了才跑来叫,调来的磁带数据完全颠三倒四,倒不进去,甚至一放进磁带机磁带就退不出来,各种各样稀奇古怪的事情......最好的办法,就是永远不要坏,或者3倍冗余
RAID5的安全性是不够高的,我几乎每个月都会看到RAID5崩溃,要全部重构......只能从磁带里倒数据,说真的,如果阵列里一个磁盘坏了,最佳的处理办法就是把那一批的磁盘全部换掉,我见过的无数血泪教训都说明了这一点是绝对真理!
-
- 帖子: 180
- 注册时间: 2007-09-09 9:35
Re: 估计你可能不太在机房做事,数据丢失见得少
这就叫技术不如制度,制度又不如人huweimail 写了: 结果大多数客户就是即便通知也是完全没有反应,一直到服务器完全崩溃了才跑来叫,调来的磁带数据完全颠三倒四,倒不进去,甚至一放进磁带机磁带就退不出来,各种各样稀奇古怪的事情......最好的办法,就是永远不要坏,或者3倍冗余
哪里有100%安全的东西?
-
- 帖子: 180
- 注册时间: 2007-09-09 9:35
Re: 估计你可能不太在机房做事,数据丢失见得少
如果这个问题真是问题(血泪阿,这么大的问题),采购的时候选择不同批次的产品就行了,很难吗?就算用户做不到,集成商也不难。huweimail 写了: 说真的,如果阵列里一个磁盘坏了,最佳的处理办法就是把那一批的磁盘全部换掉,我见过的无数血泪教训都说明了这一点是绝对真理!
ps。我没混过什么大机房,只是有两个小raid5而已。
-
- 帖子: 39
- 注册时间: 2007-10-22 22:58
Re: 估计你可能不太在机房做事,数据丢失见得少
绝对的血泪!我几乎每年都见到因为阵列崩溃导致的数据丢失,而且每次都是一坏就接二连三坏好几块。我曾经尝试过提醒很多技术主管,结果都是一样,根本不相信我的话,总觉得有了阵列没问题,非得到丢饭碗的时候才后悔。majia1hao 写了:
如果这个问题真是问题(血泪阿,这么大的问题),采购的时候选择不同批次的产品就行了,很难吗?就算用户做不到,集成商也不难。
ps。我没混过什么大机房,只是有两个小raid5而已。
光说技术都很简单......问题是实际上企业采购环节问题最多,就跟你前面讲的一样,制度不如人
- pengpeng1987
- 帖子: 73
- 注册时间: 2008-05-06 11:02
- 来自: 野猪帝国
-
- 帖子: 12
- 注册时间: 2008-05-10 0:51
- aprilangela
- 帖子: 59
- 注册时间: 2006-02-13 12:18
- millenniumdark
- 论坛版主
- 帖子: 4159
- 注册时间: 2005-07-02 14:41
- 系统: Ubuntu 14.04 (Kylin)
- 联系:
- skyx
- 论坛版主
- 帖子: 9202
- 注册时间: 2006-12-23 13:46
- 来自: Azores Islands
- 联系:
鉴于当时少数别有用心的不和谐分子以ubuntu loadcycle的问题为由,兴风作浪 ,翻译此文时带了一些不应该的主观因素。millenniumdark 写了:> 硬盘温度和硬盘的工作强度(activity levels)和硬盘失效狗屁关系都没有。
这句翻译的不太妥当吧。原文是
Surprisingly, we found that temperature and activity levels were much less correlated with drive failures than previously reported
much less 不等于完全没有。
另一方面,我的英文的确不怎么样
所以有异议的地方,请以原文为准
no security measure is worth anything if an attacker has physical access to the machine