線上服務(wù)mcelog負(fù)載異常分析處理流程

一、問題概述:

創(chuàng)新互聯(lián)公司專注于烏恰企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城網(wǎng)站建設(shè)。烏恰網(wǎng)站建設(shè)公司,為烏恰等地區(qū)提供建站服務(wù)。全流程按需定制,專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)

Nginx服務(wù)器,HP,有冗余,其中一臺(tái)服務(wù)器mcelog負(fù)載比較高,日志秒級(jí)別,已經(jīng)影響了此服務(wù)器業(yè)務(wù)。

線上服務(wù)mcelog負(fù)載異常分析處理流程tail -f /var/log/mcelog

#注意看此信息是不斷循環(huán),注意看

Transaction:Memory scrubbing error
MemCtrl:Corrected patrol scrub error
 Erroroverflow
Corrected  error

#注意看其它信息

CPU16 BANK 9
MCE11

337335    MCi_MISCregister valid
337336    MCi_ADDRregister valid
337337    MCA:MEMORY CONTROLLER MS_CHANNEL1_ERR
337338    Transaction:Memory scrubbing error
337339    MemCtrl:Corrected patrol scrub error
337340   
337341    STATUScc0048c0000800c1 MCGSTATUS 0
337342    MCGCAP1000812 APICID 8 SOCKETID 0
337343    CPUIDVendor Intel Family 6 Model 45
337344    Hardwareevent. This is not a software error.
337345    MCE10
337346    CPU16 BANK 9
337347    MISC90011000010008c ADDR 15e0e2000
337348    TIME1495308194 Sun May 21 03:23:14 2017
337349    MCGstatus:
337350    MCistatus:
337351    Erroroverflow
337352    Correctederror
 
337353    MCi_MISCregister valid
337354    MCi_ADDRregister valid
337355    MCA:MEMORY CONTROLLER MS_CHANNEL1_ERR
337356    Transaction:Memory scrubbing error
337357    MemCtrl:Corrected patrol scrub error
337358   
337359    STATUScc0003c0000800c1 MCGSTATUS 0
337360    MCGCAP1000812 APICID 9 SOCKETID 0
337361    CPUIDVendor Intel Family 6 Model 45
337362    Hardwareevent. This is not a software error.
337363    MCE11
337364    CPU17 BANK 9
337365    MISC90011000010008c ADDR 15e0f8000
337366    TIME1495308194 Sun May 21 03:23:14 2017
337367    MCGstatus:
337368    MCistatus:
337369    Erroroverflow
337370    Correctederror

tail -f /var/log/messages

線上服務(wù)mcelog負(fù)載異常分析處理流程

二、mcelog簡(jiǎn)單說明

2.1)mcelog此服務(wù)是什么?

檢查硬件錯(cuò)誤,特別是內(nèi)存和CPU錯(cuò)誤的工具

2.2)mcelog工作模式?

cron  trigger (效率高低問題)

daemon (centos目前形式) 默認(rèn)日志打到/var/log/mcelog

2.3)mcelog安裝

yum install mcelog or 編譯即可。

三、問題分析:

3.1)error信息:

Transaction:Memory scrubbing error
MemCtrl:Corrected patrol scrub error
Erroroverflow
Corrected  error

注意,通過上面的報(bào)錯(cuò)信息可以判斷內(nèi)存可能出了問題,因?yàn)閙celog日志報(bào)錯(cuò),則很可能是硬件信息故障。

3.2)其它信息

MCE(Machine Check Exception)是一類計(jì)算機(jī)硬件錯(cuò)誤。可能原因有:

內(nèi)存報(bào)錯(cuò),內(nèi)存緩存故障,cpu故障,也可能和主板,總線有關(guān)系。

CPU16 BANK 9

CPU 17 BANK 9  ...

bank定義:

傳統(tǒng)內(nèi)存系統(tǒng)為了保證CPU的正常工作,必須一次傳輸完CPU在一個(gè)傳輸周期內(nèi)所需要的數(shù)據(jù)。而CPU在一個(gè)傳輸周期能接收的數(shù)據(jù)容量就是CPU數(shù)據(jù)總線的位寬,單位是bit(位)。內(nèi)存與CPU之間的數(shù)據(jù)交換通過主板上的北橋芯片進(jìn)行,內(nèi)存總線的數(shù)據(jù)位寬等同于CPU數(shù)據(jù)總線的位寬,這個(gè)位寬就稱之為物理Bank。
bank:一直想通過bank和上面日志,排查可能哪個(gè)插槽有問題。這里希望大家給予提示。

3.3)查看服務(wù)器各指示燈:

正常。(這里很意外,不過如果問題剛產(chǎn)生不久,指示燈也不會(huì)立馬出問題)

3.4)咨詢朋友

建議:一般硬件出了問題,建議換內(nèi)存,備份數(shù)據(jù)等。

四、處理順序(renzhiyuan.blog.51cto.com)

4.1)先平滑遷移業(yè)務(wù)保障業(yè)務(wù)正常運(yùn)行。

4.2)備份數(shù)據(jù),并確保數(shù)據(jù)的可用性。

4.3)切勿重啟,先嘗試清楚內(nèi)存緩存,inode,目錄。排除緩存問題。

4.4)如果負(fù)載很高,可考慮關(guān)閉mcelog服務(wù)。

4.5)hp服務(wù)器有硬件分析功能,可先排查。

4.6)準(zhǔn)備相同規(guī)格內(nèi)存條,嘗試更換內(nèi)存條(最好不要?jiǎng)用總€(gè)內(nèi)存原本的位置,一般內(nèi)存不是很多,可嘗      試,要是能判斷哪個(gè)插槽出問題,可先替換)

4.7)如果更換內(nèi)存條無效,則可能其它硬件問題,考慮維修處理。

4.8)以上所有進(jìn)度和結(jié)果,做備案,并及時(shí)和領(lǐng)導(dǎo)反映。

當(dāng)前標(biāo)題:線上服務(wù)mcelog負(fù)載異常分析處理流程
當(dāng)前URL:http://bm7419.com/article22/ijpjjc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)網(wǎng)站內(nèi)鏈、靜態(tài)網(wǎng)站響應(yīng)式網(wǎng)站、App開發(fā)網(wǎng)站設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)