大數(shù)據(jù)之hadoop-創(chuàng)新互聯(lián)

一、大數(shù)據(jù)
大數(shù)據(jù):解決海量數(shù)據(jù)問題的技術(shù)。大數(shù)據(jù)由巨型數(shù)據(jù)集組成,把數(shù)據(jù)集合并進行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性。
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,適用于大數(shù)據(jù)的技術(shù),包括大數(shù)據(jù)技術(shù)包括大規(guī)模并行處理數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。

成都創(chuàng)新互聯(lián)秉承實現(xiàn)全網(wǎng)價值營銷的理念,以專業(yè)定制企業(yè)官網(wǎng),成都網(wǎng)站制作、網(wǎng)站建設,重慶小程序開發(fā)公司,網(wǎng)頁設計制作,手機網(wǎng)站開發(fā),全網(wǎng)整合營銷推廣幫助傳統(tǒng)企業(yè)實現(xiàn)“互聯(lián)網(wǎng)+”轉(zhuǎn)型升級專業(yè)定制企業(yè)官網(wǎng),公司注重人才、技術(shù)和管理,匯聚了一批優(yōu)秀的互聯(lián)網(wǎng)技術(shù)人才,對客戶都以感恩的心態(tài)奉獻自己的專業(yè)和所長。

大數(shù)據(jù)的特性:
大體量:可從數(shù)百TB到數(shù)十數(shù)百PB、甚至EB的規(guī)模
多樣性:大數(shù)據(jù)包括各種形式的形態(tài)的數(shù)據(jù)
時效性:需要在一定的時間限度下得到及時的處理
準確性:處理的結(jié)果要保證一定的準確性
大價值:大數(shù)據(jù)包含很多深度的價值,大數(shù)據(jù)分析挖掘和利用將帶來巨大的商業(yè)價值

二、Hadoop
hadoop是一種分析和處理海量數(shù)據(jù)的軟件平臺,是一款開源軟件,使用Java開發(fā),可以提供一個分布式基礎架構(gòu)

hadoop特點:高可靠性、高擴展性、高效性、高容錯性、低成本

hadoop常用組件:
-HDFS(Hadoop分布式文件系統(tǒng))
-Mapreduce(分布式計算框架)
-Zookeeper(分布式協(xié)作服務)
-Hbase(分布式列存數(shù)據(jù)庫)
-Hive(基于Hadoop的數(shù)據(jù)倉庫)
-Sqoop(數(shù)據(jù)同步工具)
-Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))
-Mahout(數(shù)據(jù)挖掘算法庫)
-Flume(日志收集工具)

hadoop核心組件:
-HDFS:分布式文件系統(tǒng)
-Yarn:集群資源管理系統(tǒng)
-MapReduce:分布式計算框架

HDFS角色及概念
-NameNode:Master節(jié)點,管理HDFS的名稱空間和數(shù)據(jù)塊映射信息,配置副本策略,處理所有客戶端請求。
-Secondary NameNode:定期合幵 fsimage 和fsedits,推送給NameNode,緊急情況下,可輔助恢復NameNode
-DataNode:數(shù)據(jù)存儲節(jié)點,存儲實際的數(shù)據(jù),匯報存儲信息給NameNode。
-Client:切分文件,訪問HDFS,與NameNode交互,獲取文件位置信息,與DataNode交互,讀取和寫入數(shù)據(jù)。

Hadoop的部署模式有三種:
-單機
-偽分布式(所有角色裝一臺機器上)
-完全分布式(不同角色裝不同機器)

三、單機模式:
1.獲取軟件
http://hadoop.apache.org
下載:hadoop-2.7.6.tar.gz
解壓:tar -xf hadoop-2.7.6.tar.gz
安裝:mv hadoop-2.7.6

2.安裝java環(huán)境,jps工具
yum -y install java-1.8.0-openjdk
yum -y install java-1.8.0-openjdk-devel

3.設置環(huán)境變量
vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"

分析單詞出現(xiàn)的次數(shù)
./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount oo xx

四、完全分布式:
-分布式文件系統(tǒng):是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡節(jié)點相連,分布式文件系統(tǒng)的設計基于客戶機/服務器模式;分布式文件系統(tǒng)可以有效解決數(shù)據(jù)的存儲和管理難題,將固定于某個地點的某個文件系統(tǒng),擴展到任意多個地點/多個文件系統(tǒng),眾多的節(jié)點組成一個文件系統(tǒng)網(wǎng)絡,每個節(jié)點可以分布在不同的地點,通過網(wǎng)絡進行節(jié)點間的通信和數(shù)據(jù)傳輸。

集群組建條件:

  • ALL: 能相互 ping 通 (配置 /etc/hosts)
  • ALL: 安裝 java-1.8.0-openjdk-devel
  • NN1: 能 ssh 免密登錄所有集群主機,包括自己(不能提示輸入 yes)
    ssh 免密登錄:部署 sshkey
    不輸入 yes:修改 /etc/ssh/ssh_config
    60行添加 StrictHostKeyChecking no

配置文件格式
<property>
<name></name>
<value></value>
<description></description>
</property>

配置文件參考網(wǎng)址http://hadoop.apache.org
cd /usr/local/hadoop/etc/hadoop

1.配置環(huán)境變量文件hadoop-env.sh(參見三、3)
2.核心配置文件core-site.xml
vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs:///nn01:9000</value>
<description></description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop</value>
<description></description>
</property>
</configuration>
在所有主機上創(chuàng)建/var/hadoop

2.完全分布式配置hdfs-site.xml
vim hdfs-site.xml
<configuration>
<property>
<name>dfs.datanode.http-address</name>
<value>nn01:50070</value>
<description></description>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>nn01:50090</value>
<description></description>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description></description>
</property>
</configuration>

3.配置slaves
vim slaves
node01
node02
node03

4.同步配置到所有主機

5.格式化 namenode (nn01上操作)
./bin/hdfs namenode -format

6.啟動集群 (nn01上操作)
./sbin/start-dfs.sh
停止集群可以使用 ./sbin/stop-dfs.sh

7.驗證角色 jps (所有主機操作)

8.驗證集群是否組建成功 (nn01上操作)
./bin/hdfs dfsadmin -report

服務啟動日志路徑 /usr/local/hadoop/logs

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

當前題目:大數(shù)據(jù)之hadoop-創(chuàng)新互聯(lián)
分享鏈接:http://bm7419.com/article10/gopdo.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營銷服務器托管、網(wǎng)站設計公司、網(wǎng)站改版、全網(wǎng)營銷推廣、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設網(wǎng)站維護公司