發布時間:2025-12-29
產品型號:KunTai R722
硬件配置:MegaRAID 9560-8i 4GB、HUAWEI HWE62ST3480L003N、SP380、SP333
軟件配置:BMC、BIOS、CPLD版本:3.02.05.22、1.85、7.02
5月22日凌晨4點57分NCE-Fabric控制器上報OVSDB鏈路斷鏈、JsonRpc鏈路斷鏈、設備狀態Down等告警,幾秒后自動清除,業務無影響

1. 查看current_event日志文件,當前設備無告警,健康狀態良好。

2. 分析sel事件記錄日志,該設備在近期無問題相關異常事件打印。

3. 分析RAID_Controller_Info日志,當前raid卡9560-8i狀態正常。

4. 分析Raid組狀態,發現設備僅配置一個RAID10,當前狀態正常。

5. 分析物理磁盤狀態,發現Disk0有部分Other Error錯誤計數,說明該磁盤內部可能存在故障。

6. 分析LSI_RAID_Controller_Log日志,故障發生時raid控制器記錄到Disk0出現Unexpected sense2/04/00報錯。
7. 深入分析Raid卡日志,發現Disk0在2/04/00持續20s后觸發reset復位。
8. 當前raid卡固件(5.200.02.3681)異常處理流程。

綜上,故障發生是由于Disk0 磁盤異常并處于not ready狀態,Raid卡在診斷磁盤狀態時,會導致IO阻塞,使IO沖高到100%。
更換問題硬盤Disk0;
新版raid卡固件52.27.0-5172,已修復not ready導致IO長時間hang問題,升級Raid卡固件版本解決。
DCSG01489595 Fix Ses device not ready handling path

檢測到磁盤狀態not ready之后,會做五次重試并且設備被標記為故障進行踢盤。整個重試過程會產生兩秒延遲。當處理not ready情形,對于存儲設備將交由上層(raid卡)處理重試。
400-810-9119
bti必一体育(b-sports)









神州數碼集團

返回頂部
客戶服務熱線
7X24小時服務熱線400-810-9119
公司地址
北京市海淀區上地九街九號數碼科技廣場