服務器健康和健康檢查:詳細指南

2024-04-16    分類: 網(wǎng)站建設

不可否認,監(jiān)控您的服務器非常重要。它不僅可以幫助您每天解決問題,還可以幫助您完成擴展和容量規(guī)劃等任務。但無論您的監(jiān)控有多先進,它總是從簡單的服務器健康指示開始。實際上,也許“簡單”在這里并不是最好的詞。“服務器健康”通常會給你一個“健康/不健康”的指示。但這并不意味著底層邏輯也很簡單。在這篇文章中,您將了解檢查服務器運行狀況的實際操作。

什么是服務器運行狀況?

聽起來可能很簡單,但確定服務器運行狀況實際上并不那么容易。為了確定服務器運行狀況,您需要考慮多個指標。對于初學者來說,健康不僅僅意味著服務器正在運行。服務器可能已啟動并正在運行,但它可能存在多個問題。CPU 使用率可以恒定為 100%,磁盤可能(幾乎)已滿,或者網(wǎng)絡吞吐量可能非常低。

這些問題相對容易發(fā)現(xiàn)。但也有一些情況可能看起來一切正常,但偶爾會出現(xiàn)問題。在磁盤和網(wǎng)絡方面尤其如此。隨機磁盤和/或網(wǎng)絡問題很難發(fā)現(xiàn),但它們肯定會產(chǎn)生一些問題。因此,服務器健康監(jiān)控并不像資源消耗和正常運行時間那么簡單。那么,良好的服務器運行狀況指示實際上應該包括哪些內(nèi)容?讓我們深入了解它。

基礎

正確評估服務器的健康狀況肯定需要的不僅僅是基本指標。但是,這并不意味著您應該跳過這些基礎知識。事實上,在大多數(shù)情況下,它們會為您提供服務器健康狀況的良好指示。

那么這些基礎是什么呢?

服務器狀態(tài)和正常運行時間

讓我們從(理論上)最直接表明服務器健康狀況的東西開始——服務器狀態(tài)。如果服務器已啟動并正在運行,則表示它是健康的。如果服務器關閉或沒有響應,則它不健康。但真的是這樣嗎?

想想看。大多數(shù)公司已經(jīng)遷移到云環(huán)境,這讓事情變得有點復雜。云的優(yōu)勢之一是靈活性和自動擴展。您在云中的基礎架構可能會根據(jù)當前需求自動啟動和停止服務器。因此,如果服務器宕機,并不意味著有問題。這可能意味著自動縮放器停止了它,因為此時不需要它。出于同樣的原因,服務器正常運行時間或重啟次數(shù)也不再是服務器健康狀況的指標。

資源使用

嗯,不一定。

您可能認為服務器使用 10% 或 90% 的 CPU 并不重要。如果它使用任何數(shù)量的 CPU,那么這意味著它已經(jīng)啟動并正在運行。所以它應該是“健康的”,對吧?

根據(jù)具體情況,非常高或非常低的資源消耗可能表明存在問題。這一切都取決于上下文和模式。假設您的服務器在過去一年中使用率穩(wěn)定在 40% 到 60%,然后突然飆升至 100%。這告訴你可能有問題。

想象一下,您有服務器在公司中承擔繁重的工作。它們的典型使用率接近 100%。(例如,他們可能會批量處理大量數(shù)據(jù)或 GPU 驅動的圖形渲染。)如果其中一臺服務器突然下降到接近 0% 的使用率,那么肯定有問題。所以有什么問題?也許進行重要處理的軟件崩潰了。

理想情況下,您應該在服務器健康指標中包含資源消耗——但前提是您能夠將其與基線進行比較,并且僅適用于具有穩(wěn)定、可預測的使用模式的服務器。

你還應該考慮什么?

如本文開頭所述,服務器可能已啟動并正在運行,但這可能并不意味著它是健康的。我們涵蓋了基礎知識,但即使是這些指標也可能并不總能告訴您全部真相。以下是評估服務器運行狀況時需要考慮的一些額外事項。

網(wǎng)絡和存儲

網(wǎng)絡和存儲對于評估服務器運行狀況都非常重要。但是,它并不像 CPU 或內(nèi)存使用那么簡單。在這里,我們對簡單的使用數(shù)字并不感興趣。相反,查看一些可以直接表明健康問題的具體指標是有意義的。

對于網(wǎng)絡,您應該(例如)查看延遲和丟包計數(shù),而不是查看吞吐量或網(wǎng)絡飽和度。當然,一天中的延遲也會有所不同,具體取決于整體網(wǎng)絡流量。但如果它真的關閉了,那么你就知道出了點問題。

以秒而不是毫秒為單位計算的延遲是需要研究的。有時它可能只是一個軟件問題,但非常高的延遲也可能表明服務器上存在一般網(wǎng)絡問題。

實際上,將延遲與丟包計數(shù)結合起來可以幫助您確定這是硬件問題還是軟件問題。如果您看到非常高的延遲和大量的數(shù)據(jù)包丟失,那么將服務器標記為不健康是有意義的。

在存儲方面,我們也有類似的情況。磁盤吞吐量對于服務器的運行狀況并不那么重要,盡管寫入或讀取速度非常慢可能表明存在磁盤問題。

更有趣的是 I/O 等待時間。如果您經(jīng)??吹礁?I/O 等待時間,那么我會認為這樣的服務器不健康。這實際上并不一定意味著磁盤有問題。同樣,與網(wǎng)絡一樣,它可能表示磁盤無法處理負載。但這也可能意味著實際硬件存在一些問題。

如何將這些知識付諸實踐?讓我們來了解一下。

健康檢查

現(xiàn)在您已經(jīng)大致了解了如何評估服務器運行狀況,現(xiàn)在是討論如何實際執(zhí)行運行狀況檢查的時候了。有幾種方法可以做到這一點——主要取決于您選擇的監(jiān)控工具。但總體思路對所有人來說都是一樣的。

一種選擇是基于監(jiān)控系統(tǒng)評估服務器運行狀況,而監(jiān)控系統(tǒng)又基于某些指標。例如,您可以創(chuàng)建一些復雜的邏輯來考慮我們上面提到的所有指標?;诖?,您可以在監(jiān)控工具中創(chuàng)建“健康/不健康”條目。

另一種選擇是臨時執(zhí)行遠程運行狀況檢查。這意味著您向服務器發(fā)送某種調用并等待響應。根據(jù)響應,您可以評估服務器運行狀況。

此調用可以有多種形式,從簡單的 ping (ICMP) 或 TCP 數(shù)據(jù)包到高級 HTTP 調用,直接調用服務器上運行的軟件。簡單的調用只會告訴您服務器是否啟動。更高級的、基于 HTTP 的調用不僅可以告訴您服務器是否正在運行,還可以告訴您它是否在做它應該做的工作。

總結并尋找先進的監(jiān)控解決方案

如您所見,完全了解服務器運行狀況并不像知道服務器是否已啟動和運行那么簡單。但是,許多公司仍然這樣對待服務器健康。像這樣一個非常簡單的指標通??梢栽诜掌鲗嶋H上存在一些問題時表明它是“健康的”。

如果您不想成為這些公司中的一員,請查看可以幫助您構建更好的服務器健康評估的高級監(jiān)控解決方案。服務器管理軟件就是這樣一種工具。無論您在服務器上運行什么操作系統(tǒng),都可以幫助您避免被無用的警報轟炸。更好的是,它可以為您提供有關服務器健康狀況的有用見解。銷售團隊將很樂意向您展示一個演示和一個有用的、可搜索的博客。

網(wǎng)頁標題:服務器健康和健康檢查:詳細指南
鏈接地址:http://www.bm7419.com/news48/323798.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供響應式網(wǎng)站、網(wǎng)站制作用戶體驗、手機網(wǎng)站建設、商城網(wǎng)站、網(wǎng)站導航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設