服务器里的 raid10 突然报警,提示有盘坏了,心里一下子慌了 —— 到底能坏几块盘?4 块、6 块、8 块盘的配置,能承受的坏盘数量一样吗?坏了之后数据咋恢复?跟 raid5 比起来,哪个更扛造?小编前阵子帮公司机房处理过一次 raid10 坏盘,一开始也摸不着头脑,后来弄明白了,今天就把这些事儿全说清楚,新手看完也能心里有底,一起往下看吧!
raid10 到底能坏几块盘?得看盘数
别听人说 “raid10 能坏 2 块盘” 就信,不对,这得看你总共插了几块盘。raid10 是先把盘两两分组做 raid1(镜像),再把这些组连起来做 raid0(条带),所以坏盘不能坏在同一组里,不然就危险了。
打个比方,就像两队人抬轿子,每队两个人(一组盘),只要每队别同时倒下一个人,轿子就能继续抬。要是某一队两个人都倒下了(同一组两块盘都坏),那轿子就塌了(数据丢了)。
4/6/8 块盘的 raid10,坏盘规则不一样
用表格列出来,一看就明白:
总盘数 | 分组情况 | 最多能坏几块盘 | 不能出现的情况 |
---|---|---|---|
4 块 | 分成 2 组(每组 2 块) | 2 块 | 同一组里坏 2 块 |
6 块 | 分成 3 组(每组 2 块) | 3 块 | 任何一组里坏 2 块 |
8 块 | 分成 4 组(每组 2 块) | 4 块 | 某一组坏 2 块,或者坏盘总数超 4 块 |
小编公司机房是 6 块盘的 raid10,上次坏了 2 块,好在分属不同组,服务器照样跑,没丢数据。后来问了工程师,他说要是 6 块盘坏 3 块,只要每组各坏 1 块,也没事,就怕某一组一下子坏 2 块,那神仙也救不了。
坏盘了别慌,恢复步骤在这
上个月机房那块坏盘,就是按这几步弄好的,工程师说 “照着做,90% 的情况都能恢复”:
- 先确定哪块盘坏了
服务器面板上一般有指示灯,红的就是坏盘;或者进阵列卡管理界面(开机时按提示按 Ctrl+R),里面会标 “Failed” 的盘。小编当时看指示灯,一眼就找到了坏盘,省了不少事。
- 断电换盘(别热插拔!)
有些老服务器热插拔容易出问题,保险起见先断电。把坏盘拔下来(注意别碰着其他盘),新盘插进去,插紧点,不然认不出来。小编第一次换,没插紧,开机后还是报警,重新插了一次才好。 - 进阵列卡重建数据
开机后进阵列卡管理界面,选中新盘,选 “Rebuild”(重建),等着就行。4 块盘的话,重建大概 1-2 小时;8 块盘可能要 4-5 小时,期间服务器能正常用,但别存大文件,不然重建会变慢。
有个做监控存储的朋友,坏盘后没及时换,拖了三天,结果同一组里另一块盘也坏了,数据丢了不少,心疼死了。所以啊,发现坏盘赶紧换,别拖延!
raid10 和 raid5,容错能力差在哪
很多人纠结选 raid10 还是 raid5,小编对比了一下,差别挺大:
- 能坏的盘数:raid10 如上面说的,最多坏 “总盘数的一半”(但不能同组);raid5 不管多少盘,最多只能坏 1 块,多坏一块就完了。
- 速度:raid10 读写都快,因为有镜像又有条带;raid5 写数据慢,因为要算校验码,服务器忙的时候更明显。
- 空间利用率:raid10 要浪费一半空间(4 块盘只当 2 块用);raid5 只浪费 1 块盘的空间(4 块盘当 3 块用),更省空间。
公司财务服务器用的 raid5,去年坏了 1 块盘,刚好在保修期,换了新盘重建好了;但业务服务器用的 raid10,因为要处理大量订单,速度得快,宁愿多花点钱买盘,也不能耽误事。
自问自答:这些问题你可能也想问
问:raid10 坏了 2 块盘,不在同一组,数据安全吗?
答:安全!只要不同组,数据就没丢,赶紧换盘重建就行。小编公司那次就是这情况,换完盘一切正常,文件啥都在。
问:8 块盘的 raid10,坏了 3 块,都是不同组,还能继续用吗?
答:能是能,但赶紧换!这时候只剩 5 块好盘在干活,压力大,再坏 1 块(不管哪组)就危险了。就像轿子只剩 3 队人抬,再少一队就扛不住了。
问:预算有限,选 raid10 还是 raid5?
答:看数据重要性!财务数据、客户信息这种不能丢的,选 raid10,多花点钱买盘也值;要是存些不重要的日志、备份,raid5 也行,省空间。
小编的一点想法
raid10 的容错能力,关键在 “别让同一组盘坏两块”,盘数越多,能承受的坏盘总数越多,但规则不能破。坏盘了别慌,按步骤换盘重建就行,千万别拖延。
跟 raid5 比,raid10 更稳更快,但费盘;raid5 省空间但容错弱。小编觉得,只要数据值钱,就别省那几块盘的钱,选 raid10 踏实,你说呢?