淺談可量化的數(shù)據(jù)中心監(jiān)控服務(wù)及運營方法-創(chuàng)新互聯(lián)

淺談可量化的數(shù)據(jù)中心監(jiān)控服務(wù)及運營方法

為企業(yè)提供網(wǎng)站設(shè)計制作、成都做網(wǎng)站、網(wǎng)站優(yōu)化、成都全網(wǎng)營銷、競價托管、品牌運營等營銷獲客服務(wù)。成都創(chuàng)新互聯(lián)公司擁有網(wǎng)絡(luò)營銷運營團(tuán)隊,以豐富的互聯(lián)網(wǎng)營銷經(jīng)驗助力企業(yè)精準(zhǔn)獲客,真正落地解決中小企業(yè)營銷獲客難題,做到“讓獲客更簡單”。自創(chuàng)立至今,成功用技術(shù)實力解決了企業(yè)“網(wǎng)站建設(shè)、網(wǎng)絡(luò)品牌塑造、網(wǎng)絡(luò)營銷”三大難題,同時降低了營銷成本,提高了有效客戶轉(zhuǎn)化率,獲得了眾多企業(yè)客戶的高度認(rèn)可!

經(jīng)過十多年的建設(shè)和發(fā)展,不管是老的數(shù)據(jù)中心或者新建的數(shù)據(jù)中心,后期的運維管理方法及手段已經(jīng)考慮的比較成熟,當(dāng)然運維管理工具已經(jīng)成為必備的產(chǎn)品。說起數(shù)據(jù)中心運維,其中的理論、方案、方法和工具會有很多很多中說法,今天主要討論主動監(jiān)控工具所面臨的問題,以及解決之道。

監(jiān)控系統(tǒng)面臨的主要問題是告警量過多的問題,導(dǎo)致用戶認(rèn)為系統(tǒng)不可信,雖然這些告警都是用戶自己配置出來的,但是用戶渾然不知。第二個問題是監(jiān)控系統(tǒng)如何使用,值班團(tuán)隊如何進(jìn)行考核,讓物盡其用,人盡其才。第三個問題是如何量化監(jiān)控服務(wù),體現(xiàn)監(jiān)控服務(wù)的價值。

關(guān)于告警過多的問題,基于我之前項目的經(jīng)驗,引起告警量高的兩個主因是監(jiān)控策略過多和監(jiān)控范圍過細(xì)。解決方法主要是通過定向配置策略和限制重復(fù)告警兩種方法來優(yōu)化告警,這樣使得嚴(yán)重告警信息的準(zhǔn)確率提高到80%左右,但是對于預(yù)警類的信息還是比較多,因為不可能把閾值定制到一個恰到好處的數(shù)值、也不能能完全限制住網(wǎng)絡(luò)中頻繁發(fā)生的trap信息(trap是網(wǎng)絡(luò)設(shè)備和各OS都會觸發(fā)的信息),當(dāng)然對于大多產(chǎn)品還是可以通過限制性策略限制無效trap的接收。而這幾種手段需要長期性的系統(tǒng)維護(hù)來完成。

對于監(jiān)控系統(tǒng)的考核主要是看系統(tǒng)功能、設(shè)備類型的覆蓋率、監(jiān)控頻率粒度和穩(wěn)定性等指標(biāo)。當(dāng)然對于故障的準(zhǔn)確率這一個指標(biāo)大家覺得非常重要,如果考慮工具是運維團(tuán)隊自身的工具后,這個指標(biāo)的定義意義就不大了,看后面對于工具的持續(xù)優(yōu)化說明,可能就比較好理解。準(zhǔn)確率和運維團(tuán)隊的態(tài)度和能力相關(guān),根據(jù)我做過的眾多項目總結(jié),運維團(tuán)隊對監(jiān)控工具的重視程度,直接影響這個數(shù)據(jù)。

業(yè)內(nèi)對于監(jiān)控團(tuán)隊的考核沒有明確的約定,主要還是長期運維的一個經(jīng)驗總結(jié),普遍認(rèn)可監(jiān)控服務(wù)考核的主要指標(biāo)在于響應(yīng)時間,告警數(shù)量;告警數(shù)量主要是核算工作量和成本,數(shù)量會成為核算服務(wù)的基數(shù)。我們在不同的生產(chǎn)環(huán)境中,設(shè)備的負(fù)荷、運營時間、環(huán)境和業(yè)務(wù)系統(tǒng)等是千差萬別的,出現(xiàn)故障的數(shù)量和時間是不確定的,比如在思科高端交換機(jī)較多的網(wǎng)絡(luò)中,負(fù)載也很低,網(wǎng)絡(luò)全年不會出現(xiàn)任何問題。但對于網(wǎng)絡(luò)建設(shè)年限比較舊,設(shè)備比較陳舊的網(wǎng)絡(luò),出現(xiàn)故障的頻率就比較高了。

監(jiān)控服務(wù)考核指標(biāo)主要定義是漏報率、誤報率和上報率(15分鐘內(nèi)),前兩個指標(biāo)是考核團(tuán)隊對監(jiān)控系統(tǒng)的運營能力,在下面告警質(zhì)量的問題里講。不能因有監(jiān)控系統(tǒng)后運維團(tuán)隊就高枕無憂,運維團(tuán)隊需要不停的優(yōu)化和改進(jìn)監(jiān)控系統(tǒng),同時在網(wǎng)絡(luò)、業(yè)務(wù)系統(tǒng)發(fā)生變更后,對監(jiān)控持續(xù)的優(yōu)化。第三個指標(biāo)是考核團(tuán)隊的執(zhí)行能力,有告警是必須及時分析上報的。這樣從整個團(tuán)隊的工作態(tài)度和能力兩個緯度進(jìn)行考核。

監(jiān)控服務(wù)價值統(tǒng)計主要是核算服務(wù)的費用,這個是量化現(xiàn)代化服務(wù)的一個普遍觀點,不管是甲方還是乙方,數(shù)字說話是普遍認(rèn)可的一個觀點,根據(jù)上面提到的以告警量做為核算成本的一個基數(shù),再根據(jù)告警的嚴(yán)重等級和相關(guān)業(yè)務(wù)項的等級,進(jìn)行加權(quán)計算,例如同樣嚴(yán)重等級的告警,對于不通等級的業(yè)務(wù)系統(tǒng),發(fā)現(xiàn)該告警的的價值是不一樣的。再在以上幾個指標(biāo)考慮的基礎(chǔ)上,增加響應(yīng)時間的計算,基本上可以計算服務(wù)的價值量。計算公式為(需要CMDB的支撐):

M=p(w1*a1*b1*r1+w2*a2*b2*r2+……wn*an*bn*rn)+基本服務(wù)價格(驗證誤報、巡檢等工作)

基本價格服務(wù)包括:網(wǎng)元數(shù)量*單價;網(wǎng)元是網(wǎng)絡(luò)管理中可以監(jiān)視和管理的最小單位,包括軟件、硬件和應(yīng)用等服務(wù)。這里就包括常規(guī)告警監(jiān)控和性能報告等。

用以上兩種緯度計算,主要是從服務(wù)團(tuán)隊的態(tài)度和能力兩個緯度進(jìn)行激勵。

簡稱

字符描述

M(money)

服務(wù)價值

w(work)

告警項

a(alert)

告警級別

b (business)

業(yè)務(wù)系統(tǒng)級別

r(response)

響應(yīng)時間

p(price)

基本價格

例如:

告警級別:業(yè)務(wù)系統(tǒng)級別:響應(yīng)時間:

嚴(yán)重告警

1.5


XX生產(chǎn)系統(tǒng)

1.5


5分鐘

1.5

高級告警

1.2


OA系統(tǒng)

1.2


10分鐘

1.2

初級告警

1.0


公司門戶系統(tǒng)

1.0


15分鐘

1.0

警告告警

1.0


XX測試系統(tǒng)

1.0


30分鐘

0.9

初級告警

0.8


內(nèi)部論壇

0.8


60分鐘

-1

在目前了解到的國內(nèi)幾家互聯(lián)網(wǎng)公司中,數(shù)據(jù)中心運維的成熟度比較高,運維考核主要從五個緯度考慮,即響應(yīng)時間、準(zhǔn)備度(預(yù)防機(jī)制)、處理態(tài)度與能力、處理結(jié)果和后續(xù)措施。前三個跟監(jiān)控相關(guān),及時上報體現(xiàn)響應(yīng)時間;對監(jiān)控工具持續(xù)優(yōu)化、巡檢和演練等體現(xiàn)準(zhǔn)備度和能力。

告警常見問題

1、監(jiān)控存在局限,存在監(jiān)控盲點。規(guī)避方法:在網(wǎng)絡(luò)層、應(yīng)用層、系統(tǒng)層建立監(jiān)控策略,盡可能的掃除盲點。防止漏報。

2、告警延時,在產(chǎn)生告警到接受告警的過程中,系統(tǒng)會經(jīng)過告警轉(zhuǎn)換接口,郵件或短信接口,容易出現(xiàn)排隊和阻塞。規(guī)避方法:拓寬渠道、減少擁塞,嚴(yán)重告警發(fā)送短信,其他預(yù)警類告警發(fā)送郵件或頁面顯示等。防止漏報。

3、告警質(zhì)量問題。提升監(jiān)控策略和質(zhì)量在運維過程中會一直延續(xù)。規(guī)避方法:核心思想是運營,通過規(guī)劃和統(tǒng)籌能力,既要全局規(guī)劃告警分類、告警模型、告警策略,還要持續(xù)按業(yè)務(wù)和人的告警數(shù)量、告警分布持續(xù)優(yōu)化。防止誤報

告警模型

1、告警分類,便于建立告警模型、方便歸納和分析定位外,最重要的是有一個完整、系統(tǒng)的故障檢測、告警響應(yīng)機(jī)制。

2、告警模型,具備一定規(guī)則的預(yù)處理程序,比如定義一個閾值或多維度的組合條件。例如連續(xù)多次超過某個閾值后,產(chǎn)生告警,可以避免性能瞬時高而產(chǎn)生的告警。

告警優(yōu)化

1、按照頻率收斂告警,按照頻率和次數(shù)設(shè)計告警策略

2、根據(jù)責(zé)任人、設(shè)備類型或時間來收斂告警、合并告警。

3、告警關(guān)聯(lián),讓有相關(guān)關(guān)系的模塊之間不要產(chǎn)生重復(fù)告警。(在一些互聯(lián)網(wǎng)中心的自開發(fā)系統(tǒng)中有這樣的功能)

4、告警分析,還是主要是講運營過程中對告警的持續(xù)性分析,跟蹤,優(yōu)化策略,使得告警數(shù)量保持在一個合理范圍。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

本文標(biāo)題:淺談可量化的數(shù)據(jù)中心監(jiān)控服務(wù)及運營方法-創(chuàng)新互聯(lián)
轉(zhuǎn)載注明:http://bm7419.com/article48/iijhp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、網(wǎng)站維護(hù)商城網(wǎng)站、微信小程序電子商務(wù)、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)