MapReduce實(shí)驗(yàn)(一)原理

官網(wǎng)

創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),黔江企業(yè)網(wǎng)站建設(shè),黔江品牌網(wǎng)站建設(shè),網(wǎng)站定制,黔江網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,黔江網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿，時(shí)刻以成就客戶成長(zhǎng)自我，堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

http://hadoop.apache.org/

hadoop三大組件

HDFS：分布式存儲(chǔ)系統(tǒng)

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

MapReduce：分布式計(jì)算系統(tǒng)

http://hadoop.apache.org/docs/r2.8.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

YARN： hadoop 的資源調(diào)度系統(tǒng)

http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/YARN.html

回想起以前做過一個(gè)中鐵軌道激光測(cè)量軌道平整的項(xiàng)目，一段50KM的數(shù)據(jù)庫大小是400G，光是找空間復(fù)制出來就是頭大，現(xiàn)在有了分布式的數(shù)據(jù)庫和計(jì)算平臺(tái)就可以非常方便的進(jìn)行。

MapReduce 實(shí)驗(yàn) (一) 原理

Mapper

映射器將輸入鍵/值對(duì)映射到一組中間鍵/值對(duì)中。

映射是將輸入記錄轉(zhuǎn)換為中間記錄的單個(gè)任務(wù)。轉(zhuǎn)換后的中間記錄不需要與輸入記錄相同的類型。給定的輸入對(duì)可以映射到零或多個(gè)輸出對(duì)。
Hadoop的MapReduce框架產(chǎn)生一個(gè)地圖的任務(wù)由每個(gè)InputSplit工作InputFormat生成。
總的來說，制圖的實(shí)現(xiàn)是通過工作傳遞到工作setmapperclass（類）的方法?？蚣苷{(diào)用圖（writablecomparable，寫，上下文）每個(gè)鍵/值對(duì)，任務(wù)在InputSplit對(duì)。然后應(yīng)用程序可以覆蓋清除（上下文）方法來執(zhí)行任何必需的清理工作。
輸出對(duì)不需要與輸入對(duì)相同的類型。給定的輸入對(duì)可以映射到零或多個(gè)輸出對(duì)。輸出對(duì)被調(diào)用的上下文所寫（writablecomparable，可寫）。

應(yīng)用程序可以使用計(jì)數(shù)器報(bào)告其統(tǒng)計(jì)數(shù)據(jù)。

所有與給定輸出鍵相關(guān)聯(lián)的中間值隨后由框架分組，并傳遞給減速器以確定最終輸出。用戶可以通過指定一個(gè)比較器通過工作控制分組。setgroupingcomparatorclass（類）。
對(duì)映射器輸出進(jìn)行排序，然后對(duì)每個(gè)減速器進(jìn)行分區(qū)。分區(qū)的總數(shù)與任務(wù)的減少任務(wù)數(shù)相同。用戶可以控制鍵（因此記錄）通過實(shí)現(xiàn)一個(gè)自定義的分割器去哪。
用戶可以選擇指定一個(gè)合成器，通過工作。setcombinerclass（類），執(zhí)行中間輸出的地方聚集，這有助于減少從制圖到減速器的數(shù)據(jù)量。
中間排序的輸出總是存儲(chǔ)在一個(gè)簡(jiǎn)單（鍵、鍵、值、值）格式中。應(yīng)用程序可以控制的話，又如何，中間輸出被壓縮和compressioncodec可以通過配置。

Reducer

減速減少一組中間值份額較小的一組值的關(guān)鍵。
數(shù)量減少了工作組通過工作的用戶。setnumreducetasks（int）。
總的來說，減速器的實(shí)現(xiàn)是通過崗位工作經(jīng)工作。setreducerclass（類）方法，可以重寫它初始化自己。框架調(diào)用減少（writablecomparable，個(gè)<寫>，<上下文）為每個(gè)關(guān)鍵方法（值列表）>在分組的輸入對(duì)。應(yīng)用程序可以重寫清理（上下文）執(zhí)行任何所需的清理方法。
減速器有3個(gè)主要階段：洗牌，排序和減少。

Shuffle洗牌

輸入減速器的排序輸出的映射。在這一階段的框架帶來的所有映射器輸出相應(yīng)的分區(qū)，通過HTTP。

Partitioner分區(qū)

partitions空間分區(qū)是關(guān)鍵。
分區(qū)分配的關(guān)鍵的中間圖的輸出?！懊荑€或密鑰的子集的冰derive）使用的分區(qū)，typically A市的哈希函數(shù)。的總數(shù)partitions冰茶一樣的號(hào)碼reduce任務(wù)的工作。這hence米，江森自控的reduce任務(wù)的中間密鑰和hence記錄）的冰后期兩個(gè)還原。
hashpartitioner是默認(rèn)的分區(qū)。

Counter計(jì)數(shù)器

計(jì)數(shù)器是MapReduce應(yīng)用程序報(bào)告其統(tǒng)計(jì)數(shù)據(jù)的工具。
映射器和減速器實(shí)現(xiàn)可以使用計(jì)數(shù)器報(bào)告統(tǒng)計(jì)數(shù)據(jù)。
Hadoop的MapReduce的附帶了一個(gè)普遍有用的映射器，減速器庫，并計(jì)劃。

其實(shí)MapReduce講的就是分而治之的程序處理理念，把一個(gè)復(fù)雜的任務(wù)劃分為若干個(gè)簡(jiǎn)單的任務(wù)分別來做。另外，就是程序的調(diào)度問題，哪些任務(wù)給哪些Mapper來處理是一個(gè)著重考慮的問題。MapReduce的根本原則是信息處理的本地化，哪臺(tái)PC持有相應(yīng)要處理的數(shù)據(jù)，哪臺(tái)PC就負(fù)責(zé)處理該部分的數(shù)據(jù)，這樣做的意義在于可以減少網(wǎng)絡(luò)通訊負(fù)擔(dān)。最后補(bǔ)上一副經(jīng)典的圖來做最后的補(bǔ)充，畢竟，圖表往往比文字更有說服力。

MapReduce 實(shí)驗(yàn) (一) 原理

如果那個(gè)400G的數(shù)據(jù)庫還在，分成400個(gè)任務(wù)，每個(gè)任務(wù)進(jìn)行1g左右數(shù)據(jù)處理，理論上速度是原來的400倍。

具體請(qǐng)參考google mapreduce

https://wenku.baidu.com/view/1aa777fd04a1b0717fd5dd4a.html

MapReduce如何工作

讓我們用一個(gè)例子來理解這一點(diǎn) –

假設(shè)有以下的輸入數(shù)據(jù)到 MapReduce 程序，統(tǒng)計(jì)以下數(shù)據(jù)中的單詞數(shù)量：

Welcome to Hadoop Class

Hadoop is good

Hadoop is bad

MapReduce 實(shí)驗(yàn) (一) 原理

MapReduce 任務(wù)的最終輸出是：

bad

Class

good

Hadoop

Welcome

這些數(shù)據(jù)經(jīng)過以下幾個(gè)階段

輸入拆分：

輸入到MapReduce工作被劃分成固定大小的塊叫做 input splits ，輸入折分是由單個(gè)映射消費(fèi)輸入塊。

映射 - Mapping

這是在 map-reduce 程序執(zhí)行的第一個(gè)階段。在這個(gè)階段中的每個(gè)分割的數(shù)據(jù)被傳遞給映射函數(shù)來產(chǎn)生輸出值。在我們的例子中，映射階段的任務(wù)是計(jì)算輸入分割出現(xiàn)每個(gè)單詞的數(shù)量(更多詳細(xì)信息有關(guān)輸入分割在下面給出)并編制以某一形式列表<單詞，出現(xiàn)頻率>

重排

這個(gè)階段消耗映射階段的輸出。它的任務(wù)是合并映射階段輸出的相關(guān)記錄。在我們的例子，同樣的詞匯以及它們各自出現(xiàn)頻率。

Reducing

在這一階段，從重排階段輸出值匯總。這個(gè)階段結(jié)合來自重排階段值，并返回一個(gè)輸出值。總之，這一階段匯總了完整的數(shù)據(jù)集。

在我們的例子中，這個(gè)階段匯總來自重排階段的值，計(jì)算每個(gè)單詞出現(xiàn)次數(shù)的總和。

MapReduce如何組織工作？

Hadoop 劃分工作為任務(wù)。有兩種類型的任務(wù)：

Map 任務(wù) (分割及映射)
Reduce 任務(wù) (重排，還原)

如上所述

完整的執(zhí)行流程(執(zhí)行 Map 和 Reduce 任務(wù))是由兩種類型的實(shí)體的控制，稱為

Jobtracker : 就像一個(gè)主(負(fù)責(zé)提交的作業(yè)完全執(zhí)行)
多任務(wù)跟蹤器 : 充當(dāng)角色就像從機(jī)，它們每個(gè)執(zhí)行工作

對(duì)于每一項(xiàng)工作提交執(zhí)行在系統(tǒng)中，有一個(gè) JobTracker 駐留在 Namenode 和 Datanode 駐留多個(gè) TaskTracker。

MapReduce 實(shí)驗(yàn) (一) 原理

作業(yè)被分成多個(gè)任務(wù)，然后運(yùn)行到集群中的多個(gè)數(shù)據(jù)節(jié)點(diǎn)。
JobTracker的責(zé)任是協(xié)調(diào)活動(dòng)調(diào)度任務(wù)來在不同的數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行。
單個(gè)任務(wù)的執(zhí)行，然后由 TaskTracker 處理，它位于執(zhí)行工作的一部分，在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上。
TaskTracker 的責(zé)任是發(fā)送進(jìn)度報(bào)告到JobTracker。
此外，TaskTracker 周期性地發(fā)送“心跳”信號(hào)信息給 JobTracker 以便通知系統(tǒng)它的當(dāng)前狀態(tài)。
這樣 JobTracker 就可以跟蹤每項(xiàng)工作的總體進(jìn)度。在任務(wù)失敗的情況下，JobTracker 可以在不同的 TaskTracker 重新調(diào)度它。

文章題目：MapReduce實(shí)驗(yàn)(一)原理
本文鏈接：http://bm7419.com/article6/jcsgig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站設(shè)計(jì)、電子商務(wù)、域名注冊(cè)、外貿(mào)建站、微信公眾號(hào)、響應(yīng)式網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容