發(fā)布時(shí)間:2025-12-29
設(shè)備型號(hào):KunTai R622
服務(wù)器ibmc 出現(xiàn)告警事件,DIMM060槽位內(nèi)存發(fā)生不可糾正錯(cuò)誤

1.Sel日志中時(shí)間點(diǎn)為2023-11-07 15:05:35 DIMM060上報(bào)UCE記錄

2.Fdm日志中記錄到對(duì)應(yīng)時(shí)間點(diǎn)DIMM060大量UEO(潛伏錯(cuò)誤或可重啟錯(cuò)誤)告警

常見內(nèi)存故障類型分為可糾正錯(cuò)誤(CE)、不可以糾正錯(cuò)誤(UCE)、延遲的錯(cuò)誤(DE)
Corrected error:可糾正錯(cuò)誤(CE),該錯(cuò)誤被檢測(cè)到并且被糾正,不影響系統(tǒng)運(yùn)行,比如內(nèi)存DDR單bit錯(cuò)誤,可以順利獲得ECC糾正。
Deferred error:延遲的錯(cuò)誤(DE),沒有被沉默(silently)傳播,可能是系統(tǒng)潛在的錯(cuò)誤。比如內(nèi)存控制器寫數(shù)據(jù)到內(nèi)存條,發(fā)現(xiàn)要寫的數(shù)據(jù)存在不可糾正錯(cuò)誤,它會(huì)將該錯(cuò)誤數(shù)據(jù)寫到內(nèi)存,并打上poison標(biāo)記,則為deferred錯(cuò)誤。
Uncorrected error:不可糾正錯(cuò)誤(UE),該錯(cuò)誤被檢測(cè)到且未被糾正或延遲,它又可劃分為下面幾個(gè)子類:潛伏錯(cuò)誤或可重啟錯(cuò)誤(UEO)、帶標(biāo)記錯(cuò)誤或可恢復(fù)錯(cuò)誤(UER)、不可恢復(fù)錯(cuò)誤(UEU)、不可抑制錯(cuò)誤(UC)。
3.fdm_output日志中記錄DIMM060內(nèi)存由于頻繁UCE導(dǎo)致的PFAE事件,下一時(shí)間點(diǎn)有多次UCE產(chǎn)生,如下圖:

DIMM060內(nèi)存硬件產(chǎn)生UEO(潛伏錯(cuò)誤或可重啟錯(cuò)誤),該內(nèi)存故障告警可順利獲得重啟服務(wù)器恢復(fù)。但DIMM060內(nèi)存PFA錯(cuò)誤計(jì)數(shù)超門限,建議更換內(nèi)存,避免后續(xù)出現(xiàn)設(shè)備異常重啟或停止響應(yīng)的故障風(fēng)險(xiǎn)。
"DIMM060 triggered an uncorrectable error, (SN:857E325E).","2023-11-07 15:05:35","Asserted","0x01000017" 告警事件常用處理步驟如下:
1.下電后檢查該部件與其插槽是否存在損壞或接觸不良現(xiàn)象。
是 => 2
否 => 3
2.重新連接該部件,檢查告警是否清除。
是 => 處理完畢
否 => 3
3.更換產(chǎn)生告警的內(nèi)存,檢查告警是否清除。
400-810-9119
bti必一体育(b-sports)







圖標(biāo).png)
.png)
神州數(shù)碼集團(tuán)

返回頂部
客戶服務(wù)熱線
7X24小時(shí)服務(wù)熱線400-810-9119
公司地址
北京市海淀區(qū)上地九街九號(hào)數(shù)碼科技廣場(chǎng)