數(shù)據(jù)中心部署HPC基礎設施的首要考慮因素

2022-10-04    分類: 網(wǎng)站建設

數(shù)據(jù)中心部署HPC基礎設施的首要考慮因素

幾十年前,高性能計算(HPC)只有一些科研人員、科學家和工程師等使用,作為解決困難數(shù)學問題的經(jīng)濟實惠且可擴展的方法。但隨著云計算、物聯(lián)網(wǎng)和大數(shù)據(jù)等技術的發(fā)展,HPC越來越受到行業(yè)的廣泛歡迎,而其在數(shù)據(jù)中心領域的應用也越來越多。許多企業(yè)組織需要借助HPC來處理復雜的計算任務,例如金融風險建模、政府資源跟蹤、航天器飛行分析以及許多其他“大數(shù)據(jù)”項目。

根據(jù)研究機構Intersect360 Research對全球HPC市場的分析結果顯示,2020-2014年間HPC將以7.1%的高復合增長率增長。

HPC結合了硬件、軟件、系統(tǒng)管理和數(shù)據(jù)中心設施,以支持大量互連的計算機協(xié)同工作來執(zhí)行單臺計算機無法單獨完成的過于復雜的共享任務。一些企業(yè)可能會尋求租賃或購買他們的HPC,而其他企業(yè)可能會選擇在自己的數(shù)據(jù)中心內(nèi)構建HPC基礎設施。

通過了解HPC基礎設施的主要要求和限制因素,您可以確定HPC是否適合您的業(yè)務以及如何大限度地發(fā)揮它的價值。

什么是高性能計算(HPC)?

 

一般而言,HPC 是使用大型且功能強大的計算機來有效處理數(shù)學密集型任務。盡管存在 HPC“超級計算機”,但除了大的企業(yè)外,其他所有企業(yè)往往無法觸及此類系統(tǒng)。

相反地,大多數(shù)企業(yè)可以將HPC作為一組配置成在集群中運行的相對便宜、緊密集成的計算機或節(jié)點進行實施。此類集群使用分布式處理軟件框架(例如Hadoop和MapReduce)通過在多臺聯(lián)網(wǎng)計算機之間劃分和分配計算任務來解決復雜的計算問題。集群中的每臺計算機都只處理自己的問題或數(shù)據(jù)集部分,然后軟件框架將其重新集成以提供完整的解決方案。

分布式HPC架構為組織帶來了一些權衡。最直接的好處包括可擴展性和成本管理。Hadoop等框架只能在一臺服務器上運行,但組織也可以將它們擴展到數(shù)千臺服務器。這使得企業(yè)能夠使用價格較低的現(xiàn)成計算機來構建HPC基礎架構,以滿足其當前和未來的需求。Hadoop還具有容錯能力,可以檢測故障系統(tǒng)并將其從集群中分離出來,將這些故障作業(yè)重定向到可用系統(tǒng)。

構建HPC集群在技術上很簡單,但HPC部署可能會帶來業(yè)務挑戰(zhàn)。即使能夠隨著時間的推移管理、擴展和添加節(jié)點,但是采購、部署、運營和維護數(shù)十、數(shù)百甚至數(shù)千臺服務器的成本——以及支持它們的網(wǎng)絡基礎設施——也可能成為一筆巨大的財務投資。加上許多企業(yè)對HPC的需求也有限,很難讓HPC集群保持忙碌,而企業(yè)在HPC上投入的資金和培訓成本要求部署能夠處理業(yè)務任務以實現(xiàn)成本效益。

只有對用例、利用率和投資回報指標有透徹的了解,才能獲得成功的HPC項目。

實施HPC需要什么?

 

在商業(yè)數(shù)據(jù)中心實施HPC集群的三個主要要求包括計算硬件、軟件層和容納所有這些的設施。更準確的要求取決于HPC部署的規(guī)模。

計算要求。構建HPC集群需要服務器、存儲和不應共享日常業(yè)務流量LAN的專用網(wǎng)絡。理論上,您可以在單臺服務器上實施Hadoop等HPC軟件,這可以幫助員工學習和獲得HPC軟件和作業(yè)調(diào)度方面的經(jīng)驗。但是,基于Hadoop的典型HPC集群至少需要使用三臺服務器:主節(jié)點、工作節(jié)點和客戶端節(jié)點。

您可以用多個主節(jié)點擴展該簡單模型,每個主節(jié)點支持多個工作節(jié)點,這意味著典型的HPC部署由多個服務器(通常虛擬化以增加集群可用的有效服務器數(shù)量)組成。專用集群網(wǎng)絡還需要高帶寬TCP/IP網(wǎng)絡設備,例如千兆以太網(wǎng)、NIC 和交換機。服務器和交換機的數(shù)量取決于集群的大小,以及每臺服務器的能力。

剛接觸HPC的企業(yè)通常從擴展到幾個機架的有限硬件部署開始,然后再擴展到集群。您可以通過投資具有充足處理器和存儲空間的高端服務器來限制服務器和交換機的數(shù)量,從而提高每臺服務器的計算能力。

軟件要求。成熟的堆棧必須能夠隨時支持HPC集群管理功能套件。Bright Cluster Manager和OpenHPC等軟件堆棧通常包含各種用于集群管理的工具,例如:

配置工具 監(jiān)控工具 系統(tǒng)管理工具 資源管理工具 MPI 庫 數(shù)學庫 編譯器  調(diào)試器 文件系統(tǒng)

一些組織可能會采用HPC框架(例如Hadoop框架)來管理他們的HPC。Hadoop包括HDFS 文件系統(tǒng)、Hadoop Common、MapReduce和YARN等組件,它們提供了許多與上面所列相同的功能。

HPC項目需要輸出結果,這種結果可以通過可視化、建?;蚱渌麍蟾孳浖男问教峁┙o管理員。能夠可視化Hadoop數(shù)據(jù)的工具包括Hunk、Platfora和Datameer等,以及Jaspersoft、Pentaho和BIRT等開源工具;Cognos、MicroStrategy和QlikView等商業(yè)智能工具;而Rshiny、D3.js和Highcharts等圖表庫能夠可視化非Hadoop框架的輸出。

設施要求。設施通常會成為HPC部署過程中大的限制因素。要實施HPC,您需要物理空間和重量支撐來容納額外的服務器機架、運行它們的電源以及足夠的冷卻能力來管理熱量。一些企業(yè)可能根本沒有空間和冷卻基礎設施來支持大量額外的服務器。

超融合基礎設施系統(tǒng)可以大限度地減少物理計算占用空間,但HCI具有高功率密度,可能導致機架“熱點”和其他冷卻挑戰(zhàn)。用于HPC部署的完整計算機機架最多可包括72臺刀片式服務器和5臺架頂式交換機,總重量高達1800磅,需要高達43 kW的電量支持。

HPC部署需要對數(shù)據(jù)中心設施進行仔細評估,并對系統(tǒng)電源和冷卻要求與容量進行詳細判斷。如果設施不足以進行HPC部署,您必須尋求內(nèi)部HPC的替代方案。

應對HPC實施挑戰(zhàn)

 

計算挑戰(zhàn)。盡管HPC硬件很常見且隨時可用,但您可以使用模塊化高密度服務器來解決計算限制。模塊化設計使服務器易于擴展和更換。您可以使用帶有專用高速LAN的專用高性能服務器來實現(xiàn)好性能,這使您能夠通過定期的技術更新周期和額外投資來隨時間更新HPC程序。

軟件挑戰(zhàn)。HPC軟件方面的主要挑戰(zhàn)在于管理軟件組件版本和互操作性,即確保修補或更新一個組件不會對其他軟件組件的穩(wěn)定性或性能產(chǎn)生不利影響。解決這一問題的關鍵在于,將測試和驗證作為HPC軟件更新過程的核心部分。

設施挑戰(zhàn)。處理裝滿服務器和網(wǎng)絡設備的額外機架所需的可用物理數(shù)據(jù)中心空間、電源和冷卻問題,限制了許多希望實施HPC的組織。對于這一點,服務器升級或許可以提供幫助。通過部署更大、功能更強大的服務器來支持更多的VM,您可以有效地添加 HPC“節(jié)點”,而無需添加更多物理服務器。此外,在同一物理服務器內(nèi)對VM進行分組可以緩解網(wǎng)絡問題,因為VM可以在服務器內(nèi)進行通信,而無需通過LAN傳輸流量。

您也可以尋求查看第三方支持,例如托管以獲得額外空間。托管使您的組織能夠在提供商的數(shù)據(jù)中心租用空間并使用該提供商的電力和冷卻設施。然而,托管通常需要一項可能跨越數(shù)年的昂貴的長期合同義務。

電力成本也會影響HPC部署的長期成本,因此請評估本地電力的可用性和成本。考慮平衡的三相配電基礎設施和先進的配電設備——例如智能PDU和開關PDU——以提高電源效率。不間斷電源裝置支持HPC集群服務器的有序運行,以大限度地減少數(shù)據(jù)丟失。

添加高密度服務器機架會給數(shù)據(jù)中心的空氣處理系統(tǒng)增加相當大的冷卻負荷。當額外的冷卻功能不可用時,可以評估托管或云選項,或考慮先進的冷卻技術,例如HPC機架的浸入式冷卻。

HPC擁抱云?

 

包括AWS、Google Cloud Platform和Microsoft Azure在內(nèi)的幾家公有云提供商都在為面臨構建和運營HPC挑戰(zhàn)的企業(yè)提供HPC服務。公有云克服了個體企業(yè)面臨的規(guī)模和成本挑戰(zhàn),這也使得它們成為了部署HPC任務的理想選擇。云可以提供:

貫穿全球可用數(shù)據(jù)中心的幾乎無限擴展;  各種專用CPU、GPU、現(xiàn)場可編程門陣列和快速互連硬件功能,可優(yōu)化機器學習、可視化和渲染等任務的工作性能; 成熟且隨時可用的HPC服務,例如Amazon EMR上的Azure CycleCloud和Apache Hadoop,可減輕本地IT人員的學習曲線和支持負擔; 即用即付的成本模型,使企業(yè)只需在實際使用這些云服務和資源時才為HPC付費。

執(zhí)行頻繁和適度HPC任務的企業(yè)可以選擇構建和維護有限的HPC集群,以實現(xiàn)本地數(shù)據(jù)處理項目的便利性和安全性,但對于其內(nèi)部無法支持的、偶爾要求更高的HPC項目,他們可能仍會轉向公有云。

網(wǎng)站題目:數(shù)據(jù)中心部署HPC基礎設施的首要考慮因素
新聞來源:http://bm7419.com/news/201426.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣手機網(wǎng)站建設、做網(wǎng)站面包屑導航、網(wǎng)站改版小程序開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設