大數(shù)據(jù)實踐學習總結(jié)（3）－－MapReduce-創(chuàng)新互聯(lián)

關于糾結(jié)，曾經(jīng)很糾結(jié)搞大數(shù)據(jù)的人是否要學習代碼，更何況自己是售前方向的。理解原理就可以了，后來發(fā)現(xiàn)，糾結(jié)的時間越來越多。就明白了，與其糾結(jié)是否要去搞代碼，不如自己實際操作一下代碼，找一個業(yè)務場景代入之后好好學習一下。簡單來說：與其糾結(jié)，不如實干！

創(chuàng)新互聯(lián)公司為客戶提供專業(yè)的網(wǎng)站設計、成都網(wǎng)站建設、程序、域名、空間一條龍服務，提供基于WEB的系統(tǒng)開發(fā). 服務項目涵蓋了網(wǎng)頁設計、網(wǎng)站程序開發(fā)、WEB系統(tǒng)開發(fā)、微信二次開發(fā)、成都做手機網(wǎng)站等網(wǎng)站方面業(yè)務。

簡單來說，MapReduce的學習開始感覺到吃力?？赡苁歉约褐皼]有代碼基礎有關，雖是學有三年大數(shù)據(jù)的原理基礎，但對相關代碼的實現(xiàn)還是沒有實際操作過。但敲完這一遍代碼，看到最后的WEB結(jié)果展示。心里還是多少有些欣慰。對于一些技術，你知道，了解并能夠運用到實際工作過程中是要有一個階段的。

MAP階段

實際上這一個過程就是要你能夠?qū)⒃次募械?，單詞進行一一的統(tǒng)計，這里邊用到python語句，寫起來也很簡單。就是一個簡單的映射關系，很容易理解。

實際上，MAP是一個分的思想，相當于當你有大量數(shù)據(jù)的時候，你需要首先把數(shù)據(jù)分到不同機器上。而在實際操作過程上，相當于把你的大文件直接放在HDFS的集群上。每一臺機器上都進行相關的映射操作。Hadoop上的代碼跟VIM的代碼基本相同，區(qū)別就在于是否前邊要加上hadoop這個起始語句。這里還涉及到相關的路徑引導，這里主要是在JAVA環(huán)境變量里設置，當你設置好之后，就可以通過+TAB鍵來完全工作。

Reduce階段

這個是一個合并的過程，相當于對你之前映射后的文件來一個合并歸約，而我這次的實踐是wordcount操作，相當于是對所有重復的單詞來一個統(tǒng)計。

它這個里邊涉及到的有FIFO，遍歷的算法實現(xiàn)。相當于把你各個機器的工作結(jié)果匯總到一臺主PC上。而這一個階段的代碼要比MAP階段多。這一塊有數(shù)組的相關知識，還有累加函數(shù)，這一塊是需要有相關函數(shù)包的理解的。

在學習MAPREDUCE過程中，發(fā)現(xiàn)自己大的問題就是VIM命令的不熟悉，有些內(nèi)容，只有你操作過你才能更深入的理解其實現(xiàn)原理。已前只是知道其原理，而在這次MAPREDUCE的學習實踐過程中，發(fā)現(xiàn)自己的實際操作還是有些不理想，自己也對mapredeuce算是有了一個了解。周未再換一個數(shù)據(jù)集，再來把已經(jīng)會的代碼熟悉一遍。加油！

ulimit -a #查看所能讀文件的能力#

cd /usr/local/src/ #打開hadoop的相應文件夾#

ll #ll為查看文件的相關屬性，ls為查看相關文件夾下文件#

touch *.* #建立某一個文件#

mkdir python_mr #建立一個文件夾#

cd /home/badou/python_mr/ #打開相關的mapreduce文件夾#

cd mapreduce_wordcount_python/ #進入相關詞頻統(tǒng)計函數(shù)，通過相應的共享文件目標，將源文件拷貝到此目錄下#

rm output result.data #刪除之前操作過輸出的文檔#

#本地查看源文件#

cat The_Man_of_Property.txt

#查看上傳的文件，若文件太長，用ctrl+c可退出查看#

cat The_Man_of_Property.txt| head -1

#查看文件中第一個頭部信息#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n'

#將所有的空格都轉(zhuǎn)換成換行符#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k1 -nr |

#排序（k,k1,k1列標示，－n -nr按大小順序OR倒序）#

#把相同的行數(shù)進行統(tǒng)計#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k 1 | uniq -c | awk '{print$2"\t"$1}' ｜head

#輸出成Key-Value形式#

cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k 1 | uniq -c | awk '{print$2"\t"$1}' | sort -k2 -nr | head #將輸出的K-Value形式進行排序并做頭部10行顯示#

#上傳到hadoop系統(tǒng)中進行處理#

vim ~/.bashrc #進入JAVA的環(huán)境變量設置#

export PATH=$PATH 大數(shù)據(jù)實踐學習總結(jié)（3）－－MapReduce JAVA_HOME/bin:/usr/local/src/hadoop-1.2.1/bin #修改引用，將匹配擴展到hadoop#

sourc ~/.bashrc #保存退出后，用命令使已配的環(huán)境變量生效#

hadoop fs -ls / #查看hadoop下文件#

hadoop fs -rmr /The_Man_of_Property.txt #刪除已上傳好的文檔#

hadoop fs -put The_Man_of_Property.txt / #上傳相應文檔，注意：必須是本目錄下文件#

hadoop fs -cat /The_Man_of_Property.txt | head #查看hadoop上的文件，但只能看到明文文件#

hadoop fs -text /The_Man_of_Property.txt | head #查看hadoop上的文件，可以看到密文文件和壓縮文件#

#map.py 代碼#

import sys #定義一個系統(tǒng)模塊#

for line in sys.stdin: #從標準輸入讀取數(shù)據(jù)#

ss = line.strip().split(' ') #對一行字串進行處理，相當于用空格分隔每個分詞，ss是很多單詞#

for s in ss: #對每一個單詞進行處理#

if s.strip() != "":

print "%s\t%s" % (s, 1) #如果每個單詞不為完，則記這個單詞為1 #

cat The_Man_of_Property.txt | head | python map.py | head #測試上邊的代碼是否成功#

#reduce.py 代碼#

import sys

current_word = None

count_pool = []

sum = 0 #初始定義參數(shù)值#

for line in sys.stdin: #從標準輸入讀每一行數(shù)值#

word, val = line.strip().split('\t')

if current_word ==None: #當前單詞是否為空做為判斷條件#

current_word = word

if current_word != word:

for count in count_pool:

sum += count

print "%s\t%s" % (current_word, sum)

current_word = word

count_pool = []

sum = 0

count_pool.append(int（val）） #Key追加到相當數(shù)組中#

for count in count_pool:

sum += count #對Value相行重復次數(shù)求和#

print "%s\t%s" % (current_word, str(sum)) #輸出相應的Key-Value值#

#run.sh shell腳本，用來啟動map.py與red.py#

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop" #設置目標路徑，便于引用#

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

#設置STREAM_JAR_PATH路徑，便于輸入輸出#

INPUT_FILE_PATH_1="/The_Man_of_Property.txt"

OUTPUT_PATH="/output"

# $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

-input $INPUT_FILE_PATH_1 \

-output $OUTPUT_PATH \

-mapper "python map.py" \

-reduce "python red.py" \

-file ./map.py \

-filt ./red.py #向HADOOP上上傳相關文件#

./run.sh #直接運行這個shell腳本，調(diào)用hadoop運行相關python文件#

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

本文題目：大數(shù)據(jù)實踐學習總結(jié)（3）－－MapReduce-創(chuàng)新互聯(lián)
標題網(wǎng)址：http://bm7419.com/article0/ijjio.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供App設計、外貿(mào)建站、網(wǎng)站維護、做網(wǎng)站、動態(tài)網(wǎng)站、網(wǎng)站導航

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容