3分鐘讓你讀懂Hadoop都做了什么-創(chuàng)新互聯(lián)

寫這篇文章的原因是給那些看了很多干貨，但是覺得說的太多，對(duì)于剛?cè)腴T的同學(xué)看起來是比較枯燥的事情，那么筆者就對(duì)此總結(jié)了hadoop簡(jiǎn)潔版。希望能夠幫助初學(xué)的小伙伴。分享之前我還是要推薦下我自己創(chuàng)建的大數(shù)據(jù)學(xué)習(xí)交流Qun: 710219868 進(jìn)Qun聊邀請(qǐng)碼填寫南風(fēng)（必填）我就知道是你了

創(chuàng)新互聯(lián)建站擁有一支富有激情的企業(yè)網(wǎng)站制作團(tuán)隊(duì)，在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)深耕十多年，專業(yè)且經(jīng)驗(yàn)豐富。十多年網(wǎng)站優(yōu)化營(yíng)銷經(jīng)驗(yàn)，我們已為數(shù)千家中小企業(yè)提供了做網(wǎng)站、網(wǎng)站建設(shè)解決方案，按需網(wǎng)站制作，設(shè)計(jì)滿意，售后服務(wù)無憂。所有客戶皆提供一年免費(fèi)網(wǎng)站維護(hù)!

Hadoop可以說是大數(shù)據(jù)儲(chǔ)存和計(jì)算的開山鼻祖了，現(xiàn)在大多數(shù)的開源框架都依賴于Hadoop，或者能與它更好的兼容。

Hadoop的由來：

Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（Hadoop Distributed File System），簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

hadoop的核心總共有兩個(gè)：HDFS(為海量數(shù)據(jù)提供儲(chǔ)存)、MapReduce(為海量數(shù)據(jù)提供了計(jì)算)
hadoop的優(yōu)點(diǎn): 是一個(gè)能對(duì)大數(shù)據(jù)進(jìn)行分布式處理的軟件框架、是一種可靠、高效、高伸縮的方式進(jìn)行處理數(shù)據(jù).
哪里可靠：因?yàn)樗僭O(shè)了計(jì)算元素或儲(chǔ)存失敗，因此它維護(hù)了多個(gè)工作數(shù)據(jù)和副本，確保能夠針對(duì)失敗的節(jié)點(diǎn)進(jìn)行重新分布處理
哪里高效：因?yàn)樗且圆⑿械姆绞竭M(jìn)行工作，通過并行處理加快處理速度
還是可伸縮的，因?yàn)榭梢蕴幚鞵B級(jí)數(shù)據(jù)
那么說了這么多干貨，究竟hadoop是干嘛的。具體能做什么呢

hadoop就是適用于大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析的應(yīng)用，適用于幾千臺(tái)或者幾萬臺(tái)服務(wù)器的集群運(yùn)行，支持PB級(jí)的存儲(chǔ)容量。

hadoop提供了什么功能呢？

        利用服務(wù)器集群，根據(jù)用戶自定義的業(yè)務(wù)邏輯對(duì)海量數(shù)據(jù)進(jìn)行分布式處理！

hadoop運(yùn)用于什么場(chǎng)景呢？

        目前最典型是運(yùn)用于對(duì) 數(shù)據(jù)量特別大、數(shù)據(jù)類型復(fù)雜，無法用傳統(tǒng)數(shù)據(jù)庫進(jìn)行儲(chǔ)存和處理的的文本、日志、視頻、圖片、地理位置等.

技術(shù)介紹：

HDFS：
那么顧名思義大數(shù)據(jù)首先是要把數(shù)據(jù)儲(chǔ)存下來。而HDFS的設(shè)計(jì)本質(zhì)就是為了大量數(shù)據(jù)能夠橫跨成千上萬個(gè)服務(wù)器存儲(chǔ)。

比如說你獲取了/hdfs/tmp/a1的數(shù)據(jù)，雖然你看到的只是一個(gè)路徑的數(shù)據(jù)，但是很可能這個(gè)數(shù)據(jù)存儲(chǔ)在很多不同的機(jī)器上。

作為用戶根本不關(guān)注你這些數(shù)據(jù)儲(chǔ)存在了哪里和儲(chǔ)存在多少個(gè)地方，更多關(guān)注數(shù)據(jù)的使用和處理，這些就要交給HDFS管理。

MapReduce：
那么我們能夠存儲(chǔ)數(shù)據(jù)了，就要考慮如何處理數(shù)據(jù)了，一臺(tái)計(jì)算機(jī)處理T或者P以上的數(shù)據(jù)可能需要好幾天，這種效率明顯公司是不能接受的，但是我們?nèi)绻褂煤芏嗯_(tái)計(jì)算機(jī)處理的話就面臨了計(jì)算機(jī)之間如何分配的任務(wù)，如何通信、數(shù)據(jù)交換。這就是MapReduce/Spack要處理的問題了。提供了可靠的能在集群上運(yùn)行的計(jì)算模型。

Hive:
簡(jiǎn)單來說就是程序員在寫MapReduce程序的時(shí)候發(fā)現(xiàn)很麻煩，但是可以通過Hive解決這個(gè)事情。

hive是通過SQL的方式自動(dòng)把腳本或者SQL翻譯成MapReduce程序，然后丟給計(jì)算引擎去處理

因?yàn)镾QL比較容易上手，容易修改，可能一兩行的SQL語句換成MapReduce可能幾十行，幾百行

上面介紹的就是數(shù)據(jù)倉庫的基本架構(gòu)了，底層是 HDFS，上面運(yùn)行的是 MapReduce/Spark，在往上封裝的是Hive。

Storm：
想要更快的計(jì)算處理速度！Storm 是最流行的流計(jì)算平臺(tái)。流處理的思路就是在數(shù)據(jù)進(jìn)入系統(tǒng)的時(shí)候就進(jìn)行處理，基本無延遲。缺點(diǎn)是不靈活，必須事先直到需要統(tǒng)計(jì)的數(shù)據(jù)，數(shù)據(jù)流過就沒有了，沒法進(jìn)行補(bǔ)算。因此它是個(gè)好東西，但還是無法代替上述體系的。

HBase:
HBase 是一個(gè)構(gòu)建與 HDFS 的分布式，面向列的存儲(chǔ)系統(tǒng)。以 key value 對(duì)的方式存儲(chǔ)數(shù)據(jù)并對(duì)存取操作做了優(yōu)化，能夠飛快的根據(jù) key 獲取綁定的數(shù)據(jù)。例如從幾個(gè) P 的數(shù)據(jù)中找×××號(hào)只需要零點(diǎn)幾秒。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

文章名稱：3分鐘讓你讀懂Hadoop都做了什么-創(chuàng)新互聯(lián)
文章位置：http://bm7419.com/article22/igcjc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供云服務(wù)器、品牌網(wǎng)站制作、商城網(wǎng)站、Google、品牌網(wǎng)站設(shè)計(jì)、外貿(mào)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容