發布時間:2025-12-29
設備型號:KunTai R722
服務器全部硬盤出現離線告警。
Sel日志中2023-08-29 12:58:55開始上報硬盤is missing告警

Fdm_log日志內容為空,無主板、cpu、內存相關硬件側告警信息。
Fdm_output診斷日志中記錄信息正常,無其他硬件告警信息輸出。

raid卡日志查看確認raid卡鏈路狀態正常,硬盤全部離線,狀態N/A


進一步分析raid控制器日志,發現在硬盤批量離線前,raid卡有檢測到致命錯誤而重啟的記錄

RAID卡日志分析,8.29 12:51:38 記錄到硬盤背板無響應,之后12:51:51觸發RAID卡FW bug,12:52:03 RAID卡FW發生reset。之后設備重新上電過程中硬盤背板有sense:70 00 06報錯,具體解析為鏈路數據相位異常

檢查maintenance日志,8.29 12:58:47 產生了硬盤missing事件,上報原因是BMC執行硬盤點燈失敗,而硬盤在位信號正常即會上報硬盤missing

檢查app_debug_log,發現在8.29 12:56左右,記錄大量的存儲異常記錄,獲取硬盤的PDI信息異常,確認該時間段硬盤鏈路存在異常

1、硬盤背板先上報無響應異常,且在設備上下電之前沒有恢復記錄
2、RAID卡FW fatal error產生的原因為RAID卡FW bug,且在之后的1min內已經reset恢復ps:若RAID卡FW不斷掛死,BMC會上報通信丟失告警
3、根據RAID卡日志,發現硬盤背板時長有異常sense上報,sense解析為數據鏈路異常
1、鏈路異常分析,需要協助SAS協議分析儀,抓取trace進行分析。
2、若現網不支持抓trace,建議可以考慮最小化排除方式,依次更換SAS線纜、RAID卡、背板的方式進行跟蹤觀察。或者考慮一次性更換整改鏈路:RAID+SAS線纜+硬盤背板
400-810-9119
bti必一体育(b-sports)









神州數碼集團

返回頂部
客戶服務熱線
7X24小時服務熱線400-810-9119
公司地址
北京市海淀區上地九街九號數碼科技廣場