問題描述
批量升級(jí)多臺(tái)R5300 G4服務(wù)器的固件,包括BIOS、FRU、網(wǎng)卡和RAID卡版本。升級(jí)完成后,多臺(tái)服務(wù)器上報(bào)告警:CPU system has a catastrophic error.
服務(wù)器信息如下:
BMC版本:03.19.0301
BIOS版本:03.22.0100
CPU型號(hào):Intel?Xeon?Gold 5218 CPU @ 2.30GHz
適用產(chǎn)品:R5300 G4
解決方案
結(jié)合BMC日志分析,在mntnandflash1logsystem.log中,每次CPU重啟都發(fā)生在服務(wù)器重啟過程中,如下圖所示。
結(jié)合BMC日志分析,在mntnandflash1loglifcycel.log中,發(fā)生CPU錯(cuò)誤的原因是EPLD檢測(cè)到0XA8寄存器值為0X22e,如下圖所示。
0XA8寄存器定義參見下表,當(dāng)0XA8寄存器的1 bit不為0時(shí),表示CPU出現(xiàn)MSI錯(cuò)誤。
結(jié)合MSR日志分析,在mntnandflash1hostcheckmsr中,MC_STATUS列為空,沒有記錄CPU的具體錯(cuò)誤類型,如下圖所示。
通過檢查現(xiàn)場(chǎng)操作,發(fā)現(xiàn)在升級(jí)RAID卡固件和BIOS版本后,CPU信息與RAID卷組殘留的配置有沖突。
根據(jù)以上檢查結(jié)果,刪除RAID卷組,告警消失。