發布時間:2025-12-29
設備型號:KunTai A924
BMC版本:3.10.02.49
BIOS版本:7.09
CPLD版本:0.13
1臺 KunTai A924 服務器系統下lspci只能顯示7張卡,查看id為41:00.0的NPU卡掉卡
Current_event日志顯示2025-10-20 Monday 23:17:16 NPU Board7 NPU 斷連;
0x81a3880c與0x819b8605均為鏈路質量告警,建議檢查NPU網口連接情況

RAID卡以及硬盤狀態正常


Npu_info顯示NPU7功率過高

Sensor日志中無法獲取npu7的溫度

Lspci查看系統側41:00.0不識別

npu-smi info信息中,NPU7識別不到

服務器OS執行 lspci | grep acc 命令, 查詢到的pcie建鏈條數低于NPU 芯片個數,表明服務器啟動NPU和CPU的建鏈失敗
建議將NPU7交叉驗證,檢查NPU PCIE物理鏈路
嘗試交叉NPU卡/模組 觀察故障是跟隨NPU;
是 => NPU模組故障,更換NPU卡/模組;
否 => 更換NPU鏈路觀察是否恢復。
400-810-9119
bti必一体育(b-sports)









神州數碼集團

返回頂部
客戶服務熱線
7X24小時服務熱線400-810-9119
公司地址
北京市海淀區上地九街九號數碼科技廣場