發布時間:2025-12-29
設備型號:KunTai R522
主板型號:S920S00
網卡型號:MCX512A-ACUT
網卡固件版本:16.32.1010
BMC芯片:1711版
BMC版本:(U82)3.10.00.05
BIOS 版本: (U75)KL4.009.KT.230803.R
CPLD版本:(U6076)1.12
客戶報障現場多臺服務器異常重啟,且該局點前期已發現多次類似問題,需查明根因并解決。
1. 分析sel事件日志記錄,發現日志打印設備存在因未知原因異常重啟的記錄,同時伴隨有PCIE Card3/6 UCE報錯告警。

2. 分析fdm_output診斷日志,發現日志記錄網卡存在的報錯為fatal AER,Error Code:Malformed TLP。

3. 查看card_info日志,發現涉及的PCIE Card 3/6網卡,槽位信息與設備信息識別正常。

4. 查看netcard_info對應故障時間日志打印,網卡可以正常識別固件信息、所在槽位與mac地址等基本參數

5. 分析systemcom 系統串口日志,發現系統異常重啟前伴隨有系統call trace觸發,且存在Hardware error報錯,錯誤類型fatal error、Malformed TLP AER。

6. 查看Bios設置參數,“PCIEMaxPayloadSize”參數值均為256B,OS 下該參數值與Bios一致,排除該參數不一致導致出現問題可能性。

7. 進一步分析現場情況,對比發現僅配置了VF環境偶發此類問題,現場系統配置64個VF,VF(Virtual Function)是建立在PCIe PF(Physical Function)設備上的PCIe設備,相當于在一個PCIe接口上分裂出多個PCIe接口,64個VF對PCIe總線負載增加64倍,消息傳輸量增加,超出CPU Root Complex能力,會增加發生AER報錯的幾率和CTO的發生(CTO的發生在現有固件版本上會被誤報為Malformed TLP AER),詳情請見附錄5.3。

8. 現場使用的固件版本16.32.1010對AER錯誤類型處置缺乏清晰的處置規則,未屏蔽不該屏蔽的AER錯誤,導致在消息傳輸量增加情況下觸發誤報,錯誤上報了malformed TLP 類型的AER錯誤,導致系統出現異常,詳情請見附錄5.2。

9. 新固件版本對該問題進行了處理,處理方式是按照AER規則將上報的AER錯誤在網卡固件側處置,避免系統由于此類誤報導致系統異常。
Mellanox 固件歷史修復問題:

固件修復詳情:

上圖內容概要:CX-5 硬件參數設置不當,未屏蔽AER必要信息,導致網卡固件在PCIe負載較大或者發生超時時發生誤報,正確行為應為固件側根據AER規則進行處理。
修復流程示意圖:

綜上,當前問題根因為設備配置網卡MCX512A-ACUT固件版本16.32.1010存在Malformed TLP AER誤報BUG,且結合現場情況分析和歷史案例情況,VF數量增加會導致PCIe總線負載增加,加大觸發誤報的概率,進而導致系統出現異常重啟問題。
建議升級網卡MCX512A-ACUT固件至16.35.3006,解決誤報問題,從而解決服務器異常重啟問題。
400-810-9119
bti必一体育(b-sports)









神州數碼集團

返回頂部
客戶服務熱線
7X24小時服務熱線400-810-9119
公司地址
北京市海淀區上地九街九號數碼科技廣場