大數(shù)據(jù)框架hadoop服務(wù)角色介紹-創(chuàng)新互聯(lián)

翻了一下最近一段時(shí)間寫(xiě)的分享，DKHadoop發(fā)行版本下載、安裝、運(yùn)行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫(xiě)了一遍了。雖然有的地方可能寫(xiě)的不是很詳細(xì)，個(gè)人理解水平有限還請(qǐng)見(jiàn)諒吧！我記得在寫(xiě)DKHadoop運(yùn)行環(huán)境部署的時(shí)候，遺漏了hadoop服務(wù)角色的內(nèi)容，本篇特地補(bǔ)上這部分內(nèi)容吧，不然總覺(jué)得不舒服。

成都創(chuàng)新互聯(lián)公司是由多位在大型網(wǎng)絡(luò)公司、廣告設(shè)計(jì)公司的優(yōu)秀設(shè)計(jì)人員和策劃人員組成的一個(gè)具有豐富經(jīng)驗(yàn)的團(tuán)隊(duì)，其中包括網(wǎng)站策劃、網(wǎng)頁(yè)美工、網(wǎng)站程序員、網(wǎng)頁(yè)設(shè)計(jì)師、平面廣告設(shè)計(jì)師、網(wǎng)絡(luò)營(yíng)銷人員及形象策劃。承接：成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、網(wǎng)站改版、網(wǎng)頁(yè)設(shè)計(jì)制作、網(wǎng)站建設(shè)與維護(hù)、網(wǎng)絡(luò)推廣、數(shù)據(jù)庫(kù)開(kāi)發(fā),以高性價(jià)比制作企業(yè)網(wǎng)站、行業(yè)門(mén)戶平臺(tái)等全方位的服務(wù)。

要在集群中運(yùn)行DKHadoop服務(wù)，需要指定集群中的一個(gè)或多個(gè)節(jié)點(diǎn)執(zhí)行該服務(wù)的特定功能，角色分配是必須的，沒(méi)有角色集群將無(wú)法正常工作，在分配角色前，需要了解這些角色的含義。

Hadoop服務(wù)角色：

1. zookeeper角色：ZooKeeper服務(wù)是指包含一個(gè)或多個(gè)節(jié)點(diǎn)的集群提供服務(wù)框架用于集群管理。對(duì)于集群，Zookeeper服務(wù)提供的功能包括維護(hù)配置信息、命名、提供HyperBase的分布式同步，推薦在 ZooKeeper集群中至少有3個(gè)節(jié)點(diǎn)。

2. JDK角色：JDK是 Java 語(yǔ)言的軟件開(kāi)發(fā)工具包， JDK是整個(gè)Java開(kāi)發(fā)的核心，它包含了Java的運(yùn)行環(huán)境，Java工具和Java基礎(chǔ)的類庫(kù)。

3. Apache-Flume角色：Flume是Cloudera提供的一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)，F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時(shí)，F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫(xiě)到各種數(shù)據(jù)接收方（可定制）的能力。

4. Apache-Hive角色：Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，并提供簡(jiǎn)單的SQL查詢功能，可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。

5. Apache-Storm角色：Storm是內(nèi)存級(jí)計(jì)算，數(shù)據(jù)直接通過(guò)網(wǎng)絡(luò)導(dǎo)入內(nèi)存。讀寫(xiě)內(nèi)存比讀寫(xiě)磁盤(pán)速度快n個(gè)數(shù)量級(jí)。當(dāng)計(jì)算模型比較適合流式時(shí)，Storm的流式處理，省去了批處理的收集數(shù)據(jù)的時(shí)間.

6. Elasticsearch角色：Elasticsearch是用Java開(kāi)發(fā)的，并作為Apache許可條款下的開(kāi)放源碼發(fā)布，是當(dāng)前流行的企業(yè)級(jí)搜索引擎。設(shè)計(jì)用于云計(jì)算中，能夠達(dá)到實(shí)時(shí)搜索、穩(wěn)定、可靠、快速，安裝使用方便。

7. NameNode角色：HDFS系統(tǒng)中的節(jié)點(diǎn)用于維護(hù)文件系統(tǒng)中所有文件的目錄結(jié)構(gòu)并跟蹤文件數(shù)據(jù)存儲(chǔ)于哪些數(shù)據(jù)節(jié)點(diǎn)。當(dāng)客戶端需要從HDFS 文件系統(tǒng)中獲得文件時(shí)，它通過(guò)和NameNode通訊來(lái)知道客戶端哪個(gè)數(shù)據(jù)節(jié)點(diǎn)上有客戶端需要的文件。一個(gè)Hadoop集群中只能有一個(gè)NameNode。NameNode不能被賦予其他角色。

8. DataNode角色：在HDFS中，DataNode是用來(lái)存儲(chǔ)數(shù)據(jù)塊的節(jié)點(diǎn)。

9. Secondary NameNode 角色：為NameNode上的數(shù)據(jù)創(chuàng)建周期性檢查點(diǎn)的節(jié)點(diǎn)。節(jié)點(diǎn)將周期性地下載當(dāng)前NameNode鏡像和日志文件，將日志和鏡像文件合并為一個(gè)新的鏡像文件然后上傳到NameNode。被分配了NameNode角色的機(jī)器不應(yīng)再被分配Secondary NameNode 角色。

10. Standby Namenode角色：Standby模式的NameNode元數(shù)據(jù)（Namespcae information 和 Block 都是和Active NameNode中的元數(shù)據(jù)是同步的，一但切換成Active模式，馬上就可以提供NameNode服務(wù)。

11. JournalNode角色：Standby NameName和Active NameNode通過(guò)JournalNode通信，保持信息同步。

12. HBase角色：HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)。HBase在Hadoop之上提供了類似于BigTable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù)，它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。

13. Kafka角色：Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。這種動(dòng)作（網(wǎng)頁(yè)瀏覽，搜索和其他用戶的行動(dòng)）是在現(xiàn)代網(wǎng)絡(luò)上的許多社會(huì)功能的一個(gè)關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量的要求而通過(guò)處理日志和日志聚合來(lái)解決。對(duì)于像Hadoop的一樣的日志數(shù)據(jù)和離線分析系統(tǒng)，但又要求實(shí)時(shí)處理的限制，這是一個(gè)可行的解決方案。Kafka的目的是通過(guò)Hadoop的并行加載機(jī)制來(lái)統(tǒng)一線上和離線的消息處理，也是為了通過(guò)集群來(lái)提供實(shí)時(shí)的消費(fèi)。

14. Redis角色：Redis是一個(gè)開(kāi)源的使用C語(yǔ)言編寫(xiě)、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫(kù)，并提供多種語(yǔ)言的API。

15. Scala角色：Scala是一門(mén)多范式的編程語(yǔ)言，一種類似Java的編程語(yǔ)言，設(shè)計(jì)初衷是實(shí)現(xiàn)可伸縮的語(yǔ)言、并集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性。

16. Sqoop角色：Sqoop是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)（例如： MySQL ,Oracle ,Postgres等）中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)中。

17. Impala角色：Impala是Cloudera公司主導(dǎo)開(kāi)發(fā)的新型查詢系統(tǒng)，它提供SQL語(yǔ)義，能查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語(yǔ)義，但由于Hive底層執(zhí)行使用的是MapReduce引擎，仍然是一個(gè)批處理過(guò)程，難以滿足查詢的交互性。相比之下，Impala的大特點(diǎn)也是大賣(mài)點(diǎn)就是它的快速。

18. Crawler角色：Crawler是大快DKHadoop專有組件，爬蟲(chóng)系統(tǒng)，爬取動(dòng)態(tài)靜態(tài)數(shù)據(jù)。

19. Spark角色：Spark是一種與Hadoop相似的開(kāi)源集群計(jì)算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越，換句話說(shuō)，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負(fù)載。Spark 是在Scala語(yǔ)言中實(shí)現(xiàn)的，它將Scala用作其應(yīng)用程序框架。與Hadoop不同，Spark和Scala能夠緊密集成，其中的Scala可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。

20. HUE角色：HUE是一組可與您的Hadoop集×××互的網(wǎng)絡(luò)應(yīng)用程序。HUE應(yīng)用能讓您瀏覽HDFS和工作,管理Hive metastore,運(yùn)行Hive，瀏覽HBase Sqoop出口數(shù)據(jù),提交MapReduce程序,構(gòu)建自定義的搜索引擎與Solr一起調(diào)度重復(fù)性的工作流。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

分享名稱：大數(shù)據(jù)框架hadoop服務(wù)角色介紹-創(chuàng)新互聯(lián)
網(wǎng)站路徑：http://bm7419.com/article30/dpocso.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供建站公司、面包屑導(dǎo)航、標(biāo)簽優(yōu)化、軟件開(kāi)發(fā)、營(yíng)銷型網(wǎng)站建設(shè)、移動(dòng)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容