好程序員大數(shù)據(jù)學習路線分享hadoop常用四大模塊文件

　1.1.1core-site.xml(工具模塊)

讓客戶滿意是我們工作的目標，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴，公司提供的服務項目有：域名注冊、網(wǎng)絡空間、營銷軟件、網(wǎng)站建設、開平網(wǎng)站維護、網(wǎng)站推廣。

　包括Hadoop常用的工具類，由原來的Hadoopcore部分更名而來。主要包括系統(tǒng)配置工具Configuration、遠程過程調(diào)用RPC、序列化機制和Hadoop抽象文件系統(tǒng)FileSystem等。它們?yōu)樵谕ㄓ糜布洗罱ㄔ朴嬎悱h(huán)境提供基本的服務，并為運行在該平臺上的軟件開發(fā)提供了所需的API。

　1.1.2hdfs-site.xml(數(shù)據(jù)存儲模塊)

　分布式文件系統(tǒng)，提供對應用程序數(shù)據(jù)的高吞吐量，高伸縮性，高容錯性的訪問。是Hadoop體系中數(shù)據(jù)存儲管理的基礎。它是一個高度容錯的系統(tǒng)，能檢測和應對硬件故障，用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型，通過流式數(shù)據(jù)訪問，提供高吞吐量應用程序數(shù)據(jù)訪問功能，適合帶有大型數(shù)據(jù)集的應用程序。

　namenode+ datanode + secondarynode

　1.1.3mapred-site.xml(數(shù)據(jù)處理模塊)

　基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。是一種計算模型，用以進行大數(shù)據(jù)量的計算。Hadoop的MapReduce實現(xiàn)，和Common、HDFS一起，構(gòu)成了Hadoop發(fā)展初期的三個組件。MapReduce將應用劃分為Map和Reduce兩個步驟，其中Map對數(shù)據(jù)集上的獨立元素進行指定的操作，生成鍵-值對形式中間結(jié)果。Reduce則對中間結(jié)果中相同“鍵”的所有“值”進行規(guī)約，以得到最終結(jié)果。MapReduce這樣的功能劃分，非常適合在大量計算機組成的分布式并行環(huán)境里進行數(shù)據(jù)處理。

　1.1.4yarn-site.xml(作業(yè)調(diào)度+資源管理平臺)

　?任務調(diào)度和集群資源管理

　???????resourcemanager + nodemanager

　1.2hadoop 五大節(jié)點:

　1.2.1NameNode(管理節(jié)點)

　?Namenode 管理著文件系統(tǒng)的命令空間(Namespace)。它維護著文件系統(tǒng)樹(filesystemtree)以及文件樹中所有的文件和文件夾的元數(shù)據(jù)(metadata),元數(shù)據(jù)包括編輯日志(edits)和鏡像文件(fsimage)。管理這些信息的文件有兩個，分別是Namespace 鏡像文件(fsimage)和編輯日志文件(edits)，編輯日志主要是記錄對hdfs進行的修改.鏡像文件主要是記錄hdfs的文件樹形結(jié)構(gòu).這些信息被Cache在RAM中，當然，這兩個文件也會被持久化存儲在本地硬盤。Namenode記錄著每個文件中各個塊所在的數(shù)據(jù)節(jié)點的位置信息，但是他并不持久化存儲這些信息，因為這些信息會在系統(tǒng)啟動時從數(shù)據(jù)節(jié)點重建。

　1.2.2DataNode(工作節(jié)點)

　?Datanode是文件系統(tǒng)的工作節(jié)點，他們根據(jù)客戶端或者是namenode的調(diào)度存儲和檢索數(shù)據(jù)，并且定期向namenode發(fā)送他們所存儲的塊(block)的列表。

　?沒有namenode,文件系統(tǒng)是無法使用的.事實上,如果運行namenode服務的服務器壞掉,文件系統(tǒng)上的所有文件將會丟失.因為我們不知道如何根據(jù)DataNode的塊進行重建文件.所有,對NameNode進行容錯冗余機制是非常重要的.

　?集群中的從節(jié)點服務器都運行一個DataNode后臺程序，這個后臺程序負責把HDFS數(shù)據(jù)塊讀寫到本地的文件系統(tǒng)。當需要通過客戶端讀/寫某個數(shù)據(jù)時，先由NameNode告訴客戶端去哪個DataNode進行具體的讀/寫操作，然后，客戶端直接與這個DataNode服務器上的后臺程序進行通信，并且對相關(guān)的數(shù)據(jù)塊進行讀/寫操作。

　1.2.3secondary NameNode(相當于MySQL數(shù)據(jù)庫中主從復制的從節(jié)點)

　?Secondary? NameNode是一個用來監(jiān)控HDFS狀態(tài)的輔助后臺程序。和NameNode一樣，每個集群都有一個Secondary? NameNode，并且部署在一個單獨的服務器上。Secondary? NameNode不同于NameNode，它不接受或者記錄任何實時的數(shù)據(jù)變化，但是，它會與NameNode進行通信，以便定期地保存HDFS元數(shù)據(jù)的快照。由于NameNode是單點的，通過Secondary? NameNode的快照功能，可以將NameNode的宕機時間和數(shù)據(jù)損失降低到最小。同時，如果NameNode發(fā)生問題，Secondary? NameNode可以及時地作為備用NameNode使用。

　1.2.4ResourceManager

　?ResourceManage 即資源管理，在YARN中，ResourceManager負責集群中所有資源的統(tǒng)一管理和分配，它接收來自各個節(jié)點（NodeManager）的資源匯報信息，并把這些信息按照一定的策略分配給各個應用程序（實際上是ApplicationManager）。

　????RM包括Scheduler（定時調(diào)度器）和ApplicationManager（應用管理器）。Schedular負責向應用程序分配資源，它不做監(jiān)控以及應用程序的狀態(tài)跟蹤，并且不保證會重啟應用程序本身或者硬件出錯而執(zhí)行失敗的應用程序。ApplicationManager負責接受新的任務，協(xié)調(diào)并提供在ApplicationMaster容器失敗時的重啟功能.每個應用程序的AM負責項Scheduler申請資源，以及跟蹤這些資源的使用情況和資源調(diào)度的監(jiān)控

　1.2.5Nodemanager

　?NM是ResourceManager在slave機器上的代理，負責容器管理，并監(jiān)控它們的資源使用情況，以及向ResourceManager/Scheduler提供資源使用報告

　HDFS文件存儲機制:

HDFS集群分為兩大角色:NameNode、DataNode、（secondary NameNode）

NameNode負責管理整個文件系統(tǒng)的元數(shù)據(jù)

DataNode負責管理用戶的文件數(shù)據(jù)塊

文件會按照固定的大小切成若干塊后分布式存儲在若干臺DataNode上

每一個文件塊可以有多個副本,并存放在不同的DataNode上

DataNode會定期向NameNode匯報自身所保存的文件block信息,而NameNode則會負責保持文件的副本數(shù)量

HDFS的內(nèi)部工作機制對客戶端保持透明,客戶端請求訪問HDFS都是通過向NameNode申請來進行

分享題目：好程序員大數(shù)據(jù)學習路線分享hadoop常用四大模塊文件
文章源于：http://bm7419.com/article24/igepce.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供動態(tài)網(wǎng)站、定制開發(fā)、小程序開發(fā)、響應式網(wǎng)站、網(wǎng)站導航、網(wǎng)站建設

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容