spark入門知識(shí)和job任務(wù)提交流程-創(chuàng)新互聯(lián)

spark是Apache開源社區(qū)的一個(gè)分布式計(jì)算引擎,基于內(nèi)存計(jì)算,所以速度要快于hadoop.

下載

  1. 地址spark.apache.org

    站在用戶的角度思考問(wèn)題,與客戶深入溝通,找到龍華網(wǎng)站設(shè)計(jì)與龍華網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、空間域名、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋龍華地區(qū)。

安裝

  1. 復(fù)制一臺(tái)單獨(dú)的虛擬機(jī),名c

  2. 修改其ip,192.168.56.200

  3. 修改其hostname為c,hostnamectl set-hostname c

  4. 修改/etc/hosts加入對(duì)本機(jī)的解析

  5. 重啟網(wǎng)絡(luò)服務(wù) systemctl restart network

  6. 上傳spark安裝文件到root目錄

  7. 解壓spark到/usr/local下,將其名字修改為spark

本地運(yùn)行模式

使用spark-submit提交job

  1. cd /usr/local/spark

  2. ./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000

使用spark-shell進(jìn)行交互式提交

  1. 創(chuàng)建root下的文本文件hello.txt

  2. ./bin/spark-shell

  3. 再次連接一個(gè)terminal,用jps觀察進(jìn)程,會(huì)看到spark-submit進(jìn)程

  4. sc

  5. sc.textFile("/root/hello.txt")

  6. val lineRDD = sc.textFile("/root/hello.txt")

  7. lineRDD.foreach(println)

  8. 觀察網(wǎng)頁(yè)端情況

  9. val wordRDD = lineRDD.flatMap(line => line.split(" "))

  10. wordRDD.collect

  11. val wordCountRDD = wordRDD.map(word => (word,1))

  12. wordCountRDD.collect

  13. val resultRDD = wordCountRDD.reduceByKey((x,y)=>x+y)

  14. resultRDD.collect

  15. val orderedRDD = resultRDD.sortByKey(false)

  16. orderedRDD.collect

  17. orderedRDD.saveAsTextFile("/root/result")

  18. 觀察結(jié)果

  19. 簡(jiǎn)便寫法:sc.textFile("/root/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect

使用local模式訪問(wèn)hdfs數(shù)據(jù)

  1. start-dfs.sh

  2. spark-shell執(zhí)行:sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect (可以把ip換成master,修改/etc/hosts)

  3. sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().saveAsTextFile("hdfs://192.168.56.100:9000/output1")

spark standalone模式

  1. 在master和所有slave上解壓spark

  2. 修改master上conf/slaves文件,加入slave

  3. 修改conf/spark-env.sh,export SPARK_MASTER_HOST=master

  4. 復(fù)制spark-env.sh到每一臺(tái)slave

  5. cd /usr/local/spark

  6. ./sbin/start-all.sh

  7. 在c上執(zhí)行:./bin/spark-shell --master spark://192.168.56.100:7077 (也可以使用配置文件)

  8. 觀察http://master:8080

spark on yarn模式

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

網(wǎng)站題目:spark入門知識(shí)和job任務(wù)提交流程-創(chuàng)新互聯(lián)
當(dāng)前鏈接:http://bm7419.com/article6/gjgog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT域名注冊(cè)、營(yíng)銷型網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計(jì)做網(wǎng)站、云服務(wù)器

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司