發(fā)布時(shí)間:2025-12-29
設(shè)備型號(hào):KunTai R722
主板型號(hào):S920X00-2*5250
iBMC Version:3.11.00.27
BIOS Version:7.15
CPLD Version :2.00
1臺(tái)R722 硬盤故障,導(dǎo)致整機(jī)被上層騰訊云踢出
查看current_event當(dāng)前告警信息,設(shè)備當(dāng)前無告警。

查看sel事件記錄,近期僅存在重啟記錄與硬盤更換記錄,無其他異常。

查看RAID_Controller_Info.txt日志,當(dāng)前RAID卡狀態(tài)正常,模式為JBOD,Disk6有部分錯(cuò)誤計(jì)數(shù)。


分析硬盤smart參數(shù)日志,發(fā)現(xiàn)Disk6參數(shù)異常,硬盤存在UNC和壞道。

Message顯示sdg有多次復(fù)位

Dmesg顯示sdg有掉盤

上升至原廠研發(fā)后判斷該問題與其他廠商所遇問題一致,為上層騰訊云平臺(tái)機(jī)制有關(guān)。
建議優(yōu)先進(jìn)行系統(tǒng)優(yōu)化,防止再次出現(xiàn)整機(jī)剔除,后續(xù)進(jìn)行硬盤固件版本升級(jí)。
綜上,本次故障原因?yàn)橛脖PDisk6產(chǎn)生UNC和重映射計(jì)數(shù),業(yè)務(wù)側(cè)對(duì)盤讀寫時(shí)IO時(shí)延高而剔除硬盤。
硬件側(cè)
更換問題硬盤Disk6,升級(jí)本批次設(shè)備中同型號(hào)希捷硬盤固件版本至SN04&SC04及以上,改進(jìn)硬盤產(chǎn)生smart參數(shù)異常問題。
軟件側(cè)
建議OS側(cè)排查是否合入SAS驅(qū)動(dòng)補(bǔ)丁,如確定已合入則忽略此條;
建議業(yè)務(wù)側(cè)讀到報(bào)錯(cuò)UNC地址時(shí),進(jìn)行讀修復(fù)(存儲(chǔ)會(huì)采用多節(jié)點(diǎn)備份,從正常節(jié)點(diǎn)數(shù)據(jù)寫到異常盤里)或不在持續(xù)讀同一個(gè)報(bào)錯(cuò)地址,避免進(jìn)入異常循環(huán)導(dǎo)致IO時(shí)延高。
400-810-9119
bti必一体育(b-sports)







圖標(biāo).png)
.png)
神州數(shù)碼集團(tuán)

返回頂部
客戶服務(wù)熱線
7X24小時(shí)服務(wù)熱線400-810-9119
公司地址
北京市海淀區(qū)上地九街九號(hào)數(shù)碼科技廣場