發(fā)布時(shí)間:2025-12-29
設(shè)備型號(hào):KunTai R2280
硬件配置:SAS3508、SAMSUNG MZ7LH480HAHQ-00005、TOSHIBA AL15SEB24EQ、LPe12000
BMC版本:3.01.12.49
BIOS 版本:1.83.K
CPLD版本:6.02
客戶反饋3臺(tái)設(shè)備5月6日八九點(diǎn)鐘出現(xiàn)業(yè)務(wù)數(shù)據(jù)庫(kù)訪問(wèn)不了問(wèn)題,重啟設(shè)備后恢復(fù)
3.1.1查看current_event日志文件,當(dāng)前服務(wù)器狀態(tài)正常,無(wú)告警

3.1.2 查看sel事件記錄,宕機(jī)時(shí)無(wú)硬件異常信息

2.1.3 進(jìn)一步分析fdm_log,發(fā)現(xiàn)日志內(nèi)有內(nèi)存CE(correct error)情況,非宕機(jī)原因

查看dmesg日志文件,發(fā)現(xiàn)有block超時(shí)情況,導(dǎo)致內(nèi)核hung死,從時(shí)間上看為:2024/05/06 09:07分左右,與出現(xiàn)問(wèn)題時(shí)間一致。三臺(tái)機(jī)器dmesg信息均有block超時(shí)情況。

故障非硬件原因?qū)е?,根據(jù)os日志分析結(jié)論,為“task kbha : ***blocked for more than 120 seconds”導(dǎo)致
"echo 0 > /proc/sys/kernel/hung_task_timeout_secs"內(nèi)核hung
可能原因:linux會(huì)使用最多40%的可以內(nèi)存作為文件系統(tǒng)緩存,當(dāng)超過(guò)閾值后,文件系統(tǒng)會(huì)把緩存中的內(nèi)容全部寫入磁盤,導(dǎo)致后續(xù)的IO請(qǐng)求都是同步的,緩存寫入磁盤有一個(gè)默認(rèn)的120秒的超時(shí)時(shí)間,導(dǎo)致請(qǐng)求堆積,系統(tǒng)內(nèi)存被占用,導(dǎo)致系統(tǒng)失去響應(yīng)。
修改系統(tǒng)下參數(shù) vm.dirty,vm.dirty_background_ratio進(jìn)行調(diào)優(yōu)設(shè)置
設(shè)置方法
(單次生效)
sysctl -w vm.dirty_ratio=10
sysctl -w vm.dirty_background_ratio=5
sysctl -p
(永久生效,需要重啟)
vi /etc/sysctl.conf
vm.dirty_background_ratio=5
vm.dirty_ratio=10
400-810-9119
bti必一体育(b-sports)







圖標(biāo).png)
.png)
神州數(shù)碼集團(tuán)

返回頂部
客戶服務(wù)熱線
7X24小時(shí)服務(wù)熱線400-810-9119
公司地址
北京市海淀區(qū)上地九街九號(hào)數(shù)碼科技廣場(chǎng)