發布時間:2025-12-29
設備型號:KunTai R622
硬件配置:MegaRAID 9560-8i 4GB、SAMSUNG MZ7LH480HAHQ-00005、TOSHIBA MG08ADA800E、SP333
1臺R622服務器出現所有硬盤狀態異常告警,更換硬盤背板、RAID卡與SAS線纜后無法導入配置


1. 查看current_event日志文件,當前設備硬盤全部告警“state is abnormal”,此類批量問題一般為鏈路問題,非單塊硬盤故障。

2. 分析sel事件記錄日志,該設備在5月8日突然出現批量硬盤狀態異常,未記錄到其他異常操作,排除人為操作因素。

3. 分析RAID_Controller_Info日志,當前raid卡狀態正常

4. 分析Raid組狀態,發現多個單盤raid0陣列狀態均已變為offine,說明raid組已失效

5. 分析磁盤日志SATA_log,各硬盤均無報錯,Smart參數正常,說明硬盤健康狀態良好

6. 深入分析LSI_RAID_Controller_Log日志,故障發生前raid控制器記錄到多塊磁盤reset,隨后狀態變為offline不可用,疑似鏈路故障導致硬盤批量reset。

7. 分析硬盤鏈路日志,發現部分Invalid和PhyResetProblem計數,說明SAS鏈路可能存在問題。

8. 結合上述分析內容,判斷設備產生告警原因為鏈路異常,更換鏈路前運行過程中有多塊硬盤raid掉盤,掉盤后未做拉起,直接更換鏈路,更換鏈路后在Foreign View界面檢査外部配置的詳細信息發現,Foreign 配置下的硬盤實際為offline,這種狀態下無法導入,當raid配置中存在offine狀態盤的時候,只能順利獲得在PD Mgmt中強制將盤online恢復,但是由于當前更換了新raid卡,新raid卡下,硬盤的狀態以及變成Foreign,無法再設置online,導致無法導入外部配置,只能清除先前配置重組raid。
綜上,該問題產生原因為硬盤鏈路故障導致批量硬盤告警,在更換硬盤背板、RAID卡與SAS線纜前,在老raid卡下未將offline的盤恢復,導致新raid卡下無法將硬盤的外部配置關系導入,現場工程師在與客戶溝通確認這臺是沒有使用的設備后,執行操作清除先前遺留的外部配置,并按配置要求重組raid,在重組raid時選擇初始化磁盤,導致此前數據丟失。
400-810-9119
bti必一体育(b-sports)









神州數碼集團

返回頂部
客戶服務熱線
7X24小時服務熱線400-810-9119
公司地址
北京市海淀區上地九街九號數碼科技廣場