發布時間:2025-12-29
設備型號:KunTai R722
主板型號:S920X00-2*7260
BMC芯片:1711版
iBMC Version:3.03.00.35
BIOS Version:1.91
CPLD Version :6.08
多臺R722 系統下出現網卡異常打印

查看current_event當前告警信息,設備當前無告警。

查看sel事件記錄,近期無異常打印。

查看RAID_Controller_Info.txt日志,當前RAID卡狀態正常,硬盤狀態正常。


分析fdm_output診斷日志,無異常打印。

分析systemcom.tar串口日志,發現大量網卡異常打印,無其他異常記錄。

查看netcard_info.txt日志,服務器所搭載兩塊sp333網卡均已正常識別,工作正常,但當前固件版本14.31.1014較低。

系統日志分析
message日志打印,mlx5_core 0000:83:00.0: cmd_work_handler:844:(pid 1765737): failed to allocate command entry,網卡端口分配命令入口失敗。

分析mlx5驅動代碼邏輯。
驅動在執行cmd exec的時候,會去調用alloc ent,找到cmd->bitmask中最近為1的位,并調用clear bit清除為0;cmd傳到固件執行完以后,要去釋放command entry,調用free ent,將對應位重新標志為1。所以出現command entry allocate 失敗問題,有兩種可能性:
① 當cmd在傳到固件,不斷未能執行完,而不斷有cmd exec執行,被積壓,導致cmd->bitmask的位使用完,cmd->bitmask所有位被置為了0。alloc ent無法申請到cmd->bitmask中的標識位。
② cmd exec執行完后,未能調用free ent,導致cmd->bitmask的所有位被使用完。


進一步深入分析驅動代碼,發現當前現場所使用的inbox 5.0-0版本驅動在申請index邏輯中與其他版本并無較大差異,但在驅動異常處理檢查邏輯處存在缺陷,該版本驅動邏輯在pci channel offline或dev->state為真的情況下即會釋放index,此問題在驅動版本5.8-1.1.2代碼中已修復,新版本代碼中異常處理檢查項更多,且會在上層調用中統一釋放index。

綜上,服務器硬件狀態正常,當前設備OS下出現異常打印原因為當前網卡驅動版本5.0-0過低導致,此異常打印頻繁出現可能影響網絡服務,需要升級網卡驅動與固件至配套推薦版本解決,此解決方案在其他局點已經驗證成功。
查詢兼容性配套表,確認升級固件版本到:14.32.1010,升級驅動版本到:24.07-0.6.1
升級影響:驅動&固件升級需要重啟服務器生效。
升級固件版本到:14.32.1010,升級驅動版本到:24.07-0.6.1
400-810-9119
bti必一体育(b-sports)









神州數碼集團

返回頂部
客戶服務熱線
7X24小時服務熱線400-810-9119
公司地址
北京市海淀區上地九街九號數碼科技廣場