發(fā)布時間:2025-12-29
設備型號:KunTai R722
RAID卡型號: AVAGO Mega RAID SAS 9460-8i
RAID卡固件版本:5.130.00-3059
涉及硬盤型號:SAMSUNG MZ7LH3T8HMLT-00005 /3.84T/ SATA/ SSD
硬盤固件版本:HXT7904Q
設備固件版本:iBMC Version:3.01.12.47
BIOS Version: (U75)1.21
現場RAID配置:DISK40、41,RAID1,DISK0-11,單盤RAID0
服務器一塊硬盤故障,工程師攜帶硬盤上門更換,更換硬盤后需要重組RAID,創(chuàng)建RAID失敗,修復RAID卡后配置丟失
1、2023/7/20 23:08,企業(yè)微信群聊問題上報,停機更換硬盤后創(chuàng)建RAID0 ,BIOS顯示狀態(tài)異常,初步分析需要按BIOS中提示修復RAID卡;
2、進一步與現場溝通,分析到RAID卡健康狀態(tài)已經是正常,且RAID卡中已經沒有RAID組了,現場已經執(zhí)行過RAID卡修復操作,但對照文檔漏了兩步,重啟設備后無法進入操作系統(tǒng);


3、嘗試重啟設備查看RAID卡狀態(tài)和RAID組狀態(tài)、是否存在外部配置等,確認為RAID卡修復操作不完整,RAID配置已丟失;

4、嘗試恢復配置和數據
(1)換張raid卡,然后看有沒有外部配置導入
(2)更換的是raid0,不影響數據結構,直接手動組回去
5、第一時間嘗試第一步,更換同型號RAID卡后進入BIOS,無外部配置導入選項,方案Pass,執(zhí)行第二方案,獲取設備之前的RAID配置與相關參數,手動重新組RAID,創(chuàng)建RAID時選擇不初始化硬盤;
6、第一時間配置兩塊系統(tǒng)盤RAID1,配置完后重啟設備,能正常到系統(tǒng)啟動階段,但長時間未進入到系統(tǒng)內

7、懷疑是系統(tǒng)uuid綁定,新盤信息不一致導致系統(tǒng)進不去,遠程進入單用戶模式,注釋掉本次更換硬盤對應的數據掛載,再次重啟,可以正常啟動

現場數據盤均配置單盤RAID0,硬盤故障后會導致RAID組失效,觸發(fā)RAID卡機制無法直接創(chuàng)建新RAID,需要執(zhí)行修復,現場ASP在執(zhí)行修復RAID卡操作時,未完全按文檔指引操作完成便重啟設備,導致RAID卡觸發(fā)配置清除

RAID配置信息不僅存在于RAID卡中,硬盤中也會存儲相關信息,若在RAID卡中誤操作刪除配置,并不會導致配置和數據完全丟失,重組大概率可恢復;
1、給客戶做前期配置時,盡量建議客戶少用單盤RAID0,使用有冗余的RAID級別
2、RAID卡修復時需要仔細對照參考文檔操作
3、不重啟設備,更換硬盤后如果bmc創(chuàng)建新RAID組失敗,在系統(tǒng)下使用strocli工具相關命令清除緩存中的臟數據,再嘗試創(chuàng)建(涉及系統(tǒng)內操作,風險較高,且方案未經過完全驗證過,不建議使用)
400-810-9119
bti必一体育(b-sports)









神州數碼集團

返回頂部
客戶服務熱線
7X24小時服務熱線400-810-9119
公司地址
北京市海淀區(qū)上地九街九號數碼科技廣場