大數(shù)據(jù)開發(fā)生態(tài)圈之ApacheHadoop簡(jiǎn)介-創(chuàng)新互聯(lián)

大數(shù)據(jù)開發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

專注于為中小企業(yè)提供成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)昌江黎族免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了上千多家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

Hadoop概述

Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。
Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。

分布式存儲(chǔ)

在分布式存儲(chǔ)系統(tǒng)中,分散在不同節(jié)點(diǎn)中的數(shù)據(jù)可能屬于同一個(gè)文件,為了組織眾多的文件,把文件可以放到不同的文件夾中,
文件夾可以一級(jí)一級(jí)的包含。我們把這種組織形式稱為命名空間(namespace)。命名空間管理著整個(gè)服務(wù)器集群中的所有文件。

分布式計(jì)算

把一個(gè)需要非常巨大的計(jì)算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多計(jì)算機(jī)進(jìn)行處理,最后把這些計(jì)
算結(jié)果綜合起來得到最終的結(jié)果。

Hadoop關(guān)聯(lián)項(xiàng)目

大數(shù)據(jù)開發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

AmbariTM:基于web能夠提供資源、監(jiān)控、管理Hadoop集群的操作工具。
AvroTM:數(shù)據(jù)序列化系統(tǒng)。
HBaseTM:能支持結(jié)構(gòu)化數(shù)據(jù)大表存儲(chǔ)的可擴(kuò)展的、分布式的數(shù)據(jù)庫。
HiveTM:能夠支持?jǐn)?shù)據(jù)的匯總和臨時(shí)查詢的數(shù)據(jù)倉(cāng)庫基礎(chǔ)框架。
MahoutTM:一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫。
PigTM:高級(jí)數(shù)據(jù)流語言和并行計(jì)算執(zhí)行框架
SparkTM:一個(gè)快速和通用的計(jì)算Hadoop數(shù)據(jù)引擎。
TezTM:一個(gè)通用的數(shù)據(jù)流編程框架。
ZooKeeperTM:一個(gè)分布式應(yīng)用的高性能協(xié)調(diào)的服務(wù)。

Hadoop版本

大數(shù)據(jù)開發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

大數(shù)據(jù)開發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

Hadoop的版本大致分為以下:
Apache
官方版本
Cloudera(CDH)
使用下載最多的版本,穩(wěn)定,有商業(yè)支持,在Apache的基礎(chǔ)上打上了一些補(bǔ)丁。推薦使用。
HortonWorks(HDP)
基于Apache的版本進(jìn)行了集成。
MapR

Hadoop模塊構(gòu)成

Hadoop2包括4個(gè)模塊

Hadoop Common
The common utilities that support the other Hadoop modules.
Hadoop Distributed File System(HDFSTM)
A distributed file system that provides high-throughput access to application data.
Hadoop Yarn
A framework for job scheduling and cluster resource management.
Hadoop MapReduce
A YARN-based system for parallel processing of large data sets.

Hadoop1和Hadoop2簡(jiǎn)介

Hadoop1
HDFS:Hadoop Distributed File System 分布式文件系統(tǒng)
MapReduce:分布式計(jì)算模型
Hadoop2
HDFS2: Hadoop Distributed File System 分布式文件系統(tǒng)
Yarn:資源管理平臺(tái),在上面運(yùn)行分布式計(jì)算,典型的計(jì)算模型有
MapReduce、Storm、Spark等。

大數(shù)據(jù)開發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

詳細(xì)可參考http://hadoop.apache.org

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

文章名稱:大數(shù)據(jù)開發(fā)生態(tài)圈之ApacheHadoop簡(jiǎn)介-創(chuàng)新互聯(lián)
當(dāng)前URL:http://bm7419.com/article40/dgoseo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動(dòng)態(tài)網(wǎng)站、電子商務(wù)、外貿(mào)網(wǎng)站建設(shè)網(wǎng)站導(dǎo)航、品牌網(wǎng)站設(shè)計(jì)、網(wǎng)站改版

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)