企业存储的服务器突然报警,6 块盘做的 raid10 亮了红灯,IT 部门一下子慌了 —— 这最多还能坏几块?拖到明天换行不行?小编上周帮一家制造业公司处理过这事,他们存着半年的生产数据,技术员手都抖了。今天就把 6 块盘的 raid10 到底能坏几块、为啥有的情况安全有的危险、坏盘后最佳更换时间,全跟你说透,企业里负责存储的朋友看完,遇到这事也能稳住,别再瞎着急了。
先弄明白:6 块盘的 raid10,是咋分组干活的?
raid10 这东西,说复杂也不算复杂。6 块盘做 raid10,不会乱成一团,会先分成 3 组,每组 2 块盘,就像 3 个小分队,每个小分队里的两块盘是 “影子兄弟”—— 一块记数据,另一块就跟着复制一份(这叫 raid1 镜像)。然后这 3 个小分队再手拉手连成一串(这叫 raid0 条带),速度就快了,还能互相帮衬。
打个比方,就像 3 个快递站,每个站有俩快递员,甲站的 A 和 A’,乙站的 B 和 B’,丙站的 C 和 C’。A 记的件,A’ 也记一份;B 记的件,B’ 也记一份,C 和 C’ 同理。要是 A 请假了,A’ 能顶上;B 请假了,B’ 能顶上,C 那边也一样。但要是甲站的 A 和 A’ 都请假,那甲站的件就没人管了,整个快递网就得乱套。
所以啊,6 块盘的 raid10,分组就是(盘 1 + 盘 2)、(盘 3 + 盘 4)、(盘 5 + 盘 6),每组里的两块盘是 “互相备份” 的,这分组搞懂了,后面的事就好说了。
关键答案:6 块盘的 raid10,最多能坏 3 块,但有个死规矩
不少人听人说 “raid10 能坏 2 块盘”,但 6 块盘的情况不一样。它最多能坏 3 块盘,不过有个铁规矩 ——必须每组只坏 1 块,不能有任何一组坏 2 块。
咱分情况数数:
- 坏 1 块:没事。不管是盘 1 坏了,还是盘 5 坏了,只要就 1 块,存储照样跑,数据一点不丢。小编处理的那家公司,一开始就是盘 3 坏了,生产数据查询、上传都正常,就是读写速度慢了点。
- 坏 2 块:只要分属不同组,比如盘 1 和盘 3 坏了(甲组 1 块,乙组 1 块),安全。这时候还有 4 块盘在干活,每组都有 1 块好盘顶着,数据稳得很,赶紧买新盘换上就行。
- 坏 3 块:每组各坏 1 块,比如盘 1、盘 3、盘 5 分别坏了(甲组 1 块,乙组 1 块,丙组 1 块),也没事。这是 6 块盘 raid10 的 “极限扛造能力”,但这时候剩下的 3 块盘负载都翻倍了,不能再等了。
- 坏 3 块但有组坏 2 块:比如盘 1、盘 2、盘 3 坏了(甲组 2 块全坏,乙组 1 块),完了。甲组的备份彻底没了,数据直接丢,找都找不回。有个做电商的企业就吃过这亏,6 块盘坏了 3 块,其中一组全坏,半年的订单记录没了,损失不小。
所以记牢:6 块盘的 raid10,最多能坏 3 块,前提是每组只坏 1 块。超过这个数,或者有组坏 2 块,数据就悬了。
坏盘后多久必须换?72 小时是道坎
有人说 “坏 1 块盘而已,先凑合用着,等周末再换”,这话千万别信。6 块盘的 raid10,坏 1 块后,同组剩下的那块盘压力会陡增 —— 原来俩盘分担的读写任务,现在它一个扛,就像俩人干的活突然丢给一个人,累不坏才怪。
小编处理的那家制造业公司,坏盘后拖了 4 天,换盘时发现同组的另一块盘已经出现 “预警”(阵列卡提示 “即将故障”),吓得技术员当场就给新盘插上了。后来问存储厂商的工程师,人家说:“6 块盘的 raid10,坏盘后 72 小时内必须换,超过这时间,同组盘再坏的概率能涨 4 倍,尤其是企业存储每天读写量大,更熬不起。”
换盘步骤也不复杂:先记下坏盘的位置(看面板红灯),断电,把坏盘拔下来(别碰其他盘的接口),新盘对齐插槽插上,开机后按提示进阵列卡管理界面(一般按 Ctrl+R),选中新盘选 “重建”,6 块盘的话,差不多 3 小时能重建完,期间存储能正常用,就是速度慢点,不耽误事。
自问自答:这些情况,企业里可能也碰到过
问:坏 1 块盘的时候,企业存储能正常存数据吗?
答:能!读写都不受影响,就是速度比平时慢 10%-20%。那家制造业公司坏盘当天,生产数据照样实时上传,就是查历史数据时,打开表格慢了 2 秒,不影响生产,所以别慌。
问:6 块盘的 raid10,坏了 3 块(每组 1 块),还能撑到第二天换吗?
答:尽量别!这时候已经是极限了,每块剩下的盘都在 “超负荷工作”,哪怕半夜发现,也得叫人来换。有个物流企业试过,坏 3 块盘后拖了 8 小时,换盘时发现又有块盘快不行了,幸好换得及时,没丢数据。
问:企业存储用 raid10,除了及时换盘,还得注意啥?
答:备份!别光靠 raid10,重要数据每天自动备份一份到其他存储(比如移动硬盘),双保险更靠谱。那家制造业公司就是这么做的,坏盘时心里有底,知道就算出意外,还有备份能恢复。
小编的一点想法
6 块盘的 raid10 扛造是扛造,但规矩得记牢:最多坏 3 块,每组别坏 2 块,坏了赶紧 72 小时内换。企业存储存的都是值钱数据,别心疼那点换盘的功夫,拖出问题来,损失可比新盘贵多了。
要是你负责的企业存储还没设 “坏盘报警通知”,赶紧弄一个(阵列卡能设短信提醒),别等服务器滴滴响了才发现,早发现早处理,心里踏实。小编现在帮企业看存储,第一件事就是查报警设置,这招真能少踩很多坑。