六、spark--spark調(diào)優(yōu)-創(chuàng)新互聯(lián)

[TOC]

創(chuàng)新互聯(lián)建站長期為成百上千家客戶提供的網(wǎng)站建設(shè)服務(wù)，團隊從業(yè)經(jīng)驗10年，關(guān)注不同地域、不同群體，并針對不同對象提供差異化的產(chǎn)品和服務(wù)；打造開放共贏平臺，與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為華龍企業(yè)提供專業(yè)的成都做網(wǎng)站、成都網(wǎng)站制作，華龍網(wǎng)站改版等技術(shù)服務(wù)。擁有10多年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。

一、spark調(diào)優(yōu)概論

1.1 什么是spark調(diào)優(yōu)

? spark的計算本質(zhì)是分布式計算，程序的性能受集群中的任何因素的影響，如：CPU、網(wǎng)絡(luò)帶寬、內(nèi)存等。一般情況下，如果內(nèi)存足夠大，那么其他因素影響性能。然后出現(xiàn)調(diào)優(yōu)需求時，更多是因為資源不夠用的情況，所以才需要調(diào)節(jié)資源的使用情況，更加高效的使用資源。比如如果內(nèi)存比較緊張，不足以存放所有數(shù)據(jù)（10億條），需要針對內(nèi)存的使用，進行調(diào)優(yōu)來減少內(nèi)存的消耗

1.2 spark調(diào)優(yōu)的主要方向

? Spark的性能優(yōu)化，大部分的工作，是對于內(nèi)存的使用，進行調(diào)優(yōu)。通常情況下，Spark 處理的程序數(shù)據(jù)量較小，內(nèi)存足夠使用，只要保證網(wǎng)絡(luò)通常，一般不會出現(xiàn)大的性能問題。但是，Spark應(yīng)用程序的性能問題往往出現(xiàn)在針對大數(shù)據(jù)量進行計算時（數(shù)據(jù)突增）。這種情況往往是現(xiàn)環(huán)境是無法滿足的，所以可能導(dǎo)致集群崩潰。
? 除了內(nèi)存調(diào)優(yōu)之外，還有一些手段可以優(yōu)化性能。比如spark使用過程中有和mysql交互的話，此時調(diào)優(yōu)也要考慮到mysql的性能問題。

1.3 spark調(diào)優(yōu)的主要技術(shù)手段

1、使用高性能序列化類庫。目的減少序列化時間以及序列化后數(shù)據(jù)的大小
2、優(yōu)化數(shù)據(jù)結(jié)構(gòu)。目的減少內(nèi)存占用
3、對多次使用的RDD進行持久化（RDD cache）、checkpoint
4、使用序列化的持久化級別：MEMORY_ONLY不序列化，MEMORY_ONLY_SER序列化。
MEMORY_ONLY比MEMORY_ONLY_SER要占用更多內(nèi)存空間。
但是要注意，序列化會增加cpu使用成本，所以要權(quán)衡好
5、Java虛擬機垃圾回收調(diào)優(yōu)。
6、Shuffle調(diào)優(yōu)，90%的問題都是shuffle導(dǎo)致（1.x版本時此問題嚴重，到2.x版本，官網(wǎng)基本已優(yōu)化，所以到2.x版本，這個問題可忽略）

其他性能優(yōu)化的方式：
提高計算并行度
廣播共享數(shù)據(jù)

下面會針對這6點調(diào)優(yōu)手段進行分析

二、診斷spark內(nèi)存使用情況

2.1 內(nèi)存花費（對象內(nèi)存花費）

1、每個 java/scala對象，由兩部分組成，一個是對象頭，占用16字節(jié)，主要包含對象的一些元信息，比如指向它的類的指針。另一個是對象本身。如果對象比較小，比如int，它的對象頭比自己對象本身都大。

2、String對象，會比他內(nèi)部的原始數(shù)據(jù)，多出40個字節(jié)，用于保存string類型的元信息
String內(nèi)部使用char數(shù)組來保存字符串序列，并且還要保存諸如數(shù)組長度之類的信息。String使用UTF-16編碼，所以每個字符會占用2個字節(jié)。
比如：包含10個字符的String，占用 2*10 + 40 個字節(jié)。

3、集合類型，比如HashMap和LinkedList，內(nèi)部使用鏈表數(shù)據(jù)結(jié)構(gòu)，對鏈表中的每個數(shù)據(jù)，使用Entry對象包裝。Entry對象，不光有對象頭，還有指向下一個Entry的指針，占用8個字節(jié)。所以一句話就是，這種內(nèi)部還包含多個對象的類型，占用內(nèi)存更多。因為對象多了，除了對象本身數(shù)據(jù)占用內(nèi)存之外，更多對象也就會有更多對象頭，占用了不少內(nèi)存空間。

4、基本數(shù)據(jù)類型的集合，比如int集合，內(nèi)部會使用對象的包裝類 Integer來存儲元素。

2.2 獲取spark程序內(nèi)存使用情況

到driver日志目錄下查看程序運行日志

less ${spark_home}/work/app-xxxxxx/0/stderr
觀察到類似如下信息：
INFO MemoryStore: Block broadcast_1 stored as values in memory (estimated size 320.9 KB, free 366.0 MB)
        19/07/05 05:57:47 INFO MemoryStore: Block rdd_3_1 stored as values in memory (estimated size 26.0 MB, free 339.9 MB)
        19/07/05 05:57:47 INFO Executor: Finished task 1.0 in stage 0.0 (TID 1). 2212 bytes result sent to driver
        19/07/05 05:57:48 INFO MemoryStore: Block rdd_3_0 stored as values in memory (estimated size 26.7 MB, free 313.2 MB)

estimated size 320.9 KB：當前使用的內(nèi)存大概大小
free 366.0 MB：剩余空閑內(nèi)存大小

這樣就可以知道任務(wù)使用內(nèi)存的情況了

三、spark調(diào)優(yōu)技術(shù)手段

2.1 使用高性能序列化類庫

2.1.1 spark序列化的使用情況

? spark作為一個分布式系統(tǒng)，和其他分布式系統(tǒng)一樣，都需要序列化。任何一個分布式系統(tǒng)中，序列化都是很重要的一環(huán)。如果使用的序列化技術(shù)，操作很慢，序列化后數(shù)據(jù)量大，會導(dǎo)致分布式系統(tǒng)應(yīng)用程序性能下降很多。所以，Spark性能優(yōu)化的第一步，就是進行序列化性能的優(yōu)化。
? spark在一些地方是會使用序列化，比如shuffle的時候，但是spark對便捷性和性能進行了取舍，spark為了便捷性，默認使用了java的序列化機制，java的序列化機制之前也講過，性能不高，序列化速度慢，序列化后數(shù)據(jù)大。所以一般生產(chǎn)中，最好修改spark使用的序列化機制

2.1.2 配置spark使用kryo來序列化

? spark支持使用kryo來實現(xiàn)序列化。kryo序列化速度比java快，占用空間小，大概小10倍。但是使用起來，相對沒有那么便捷。
配置spark使用kryo：

spark在讀取配置時，會讀取conf目錄下的配置文件，其中有一個 spark-defaults.conf 文件就是用來指定spark的一些工作參數(shù)的。

vim spark-defaults.conf
spark.serializer        org.apache.spark.serializer.KryoSerializer

這就配置了使用kryo，當然也可以在spark程序中使用 conf對象來來設(shè)置
conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")

2.1.3 kryo類庫的優(yōu)化

（1）優(yōu)化緩存大小
如果注冊的序列化的自定義類型，本身特別大，比如包含了100個以上字段，就會導(dǎo)致序列化的對象過大。此時需要對kyro本身進行優(yōu)化。因為kyro本身內(nèi)部緩存不夠存放這么大的對象。

設(shè)置：spark.kryoserializer.buffer.max  參數(shù)值調(diào)大，即可。

（2）提前注冊自定義類型
使用kryo時，為了更高的性能，最好提前注冊需要序列化的類，如：

在sparkConf 對象中注冊
conf.registerKryoClasses(Array(classof[Student],classof[Teacher]))

注意：這里基本都針對自定義的類，而且用scala編寫spark項目時，其實不會涉及到太多自定義類，不像java

2.2 優(yōu)化數(shù)據(jù)結(jié)構(gòu)

2.2.1 概述

優(yōu)化數(shù)據(jù)結(jié)構(gòu)，主要在于避免語法特性中所導(dǎo)致的額外內(nèi)存開銷。
核心：優(yōu)化算子函數(shù)內(nèi)部使用到的局部數(shù)據(jù)或者算子外部的數(shù)據(jù)。
目的：減少對內(nèi)存的消耗和占用。

2.2.2 具體手段

（1）優(yōu)先使用數(shù)組以及字符串，而不是集合類。

即：優(yōu)先使用array，而不是ArrayList，LinkedList，hashMap
使用int[] 比 List<Integer> 節(jié)省內(nèi)存。

前面也說過，集合類包含更多的額外數(shù)據(jù)，以及復(fù)雜的類結(jié)構(gòu)，所以占用內(nèi)存多。此舉就是為了將結(jié)構(gòu)簡單化，滿足使用的情況下，越簡單越好

（2）將對象轉(zhuǎn)換成字符串。

在企業(yè)中，將HashMap，List這種數(shù)據(jù)，統(tǒng)一使用String拼接成特殊格式的字符串。
舉例：
Map<Integer,Person> persons = new HashMap<>()
優(yōu)化為：
id:name,address,idCardNum,family......|id:name,address,idCardNum,family......

（3）避免使用多層嵌套對象結(jié)構(gòu)。

public class Teacher{private List<Student> students = new ArrayList<>()}
以上例子不好，因為Teacher類的內(nèi)部又嵌套了大量的小的Student對象。
改進：
轉(zhuǎn)成json，處理字符串
{"teacherId":1,....,students[{"studentId":1,.....}]}

（4）對于能夠避免的場景，使用int代替String

雖然String性能比List高，但是int占用更少內(nèi)存。
比如：數(shù)據(jù)庫主鍵，id，推薦使用自增主鍵，而不是uuid。

2.3 RDD緩存

這個就很簡單了，主要是將多次使用的RDD緩存在內(nèi)存中，避免再次使用時重復(fù)計算。實現(xiàn)方法看前面spark core的文章

2.4 使用序列化來進行緩存

默認情況下，進行RDD緩存時，RDD對象是沒有序列化的，也就是持久化級別為 MEMORY_ONLY。建議使用 MEMORY_ONLY_SER進行持久化，因為這種方式同時會進行序列化，序列化后占用更少的內(nèi)存的空間。實現(xiàn)方法看前面spark core的文章

2.5 jvm調(diào)優(yōu)

2.5.1 背景

? 如果在持久化RDD的時候，持久化了大量的數(shù)據(jù)，那么Java虛擬機的垃圾回收就可能成為一個性能瓶頸。Java虛擬機會定期進行垃圾回收，此時就會追蹤所有Java對象，并且在垃圾回收時，追中找到那些已經(jīng)不再使用的對象，清理舊對象，給新對象騰出空間。
? 垃圾回收的性能開銷，和內(nèi)存中的對象數(shù)量成正比。而且要注意一點，在做Java虛擬機調(diào)優(yōu)前，必須要做好上面其他調(diào)優(yōu)工作，這樣才有意義。因為上面的調(diào)優(yōu)工作，是為了節(jié)省內(nèi)存的開銷，更好、更高效的使用內(nèi)存。上面的優(yōu)化比起進行jvm調(diào)優(yōu)獲得的好處要大得多。并且jvm調(diào)優(yōu)好了，但是上層應(yīng)用沒有好的內(nèi)存使用方式，jvm優(yōu)化了也白搭。

2.5.2 gc原理

這里提到這個，更多是讓讀者自己去理解這個原理，隨便百度都可以找到了，這里不重復(fù)。

2.5.3 檢測垃圾回收

我們可以對垃圾回收進行監(jiān)測，包括多久進行一次垃圾回收，以及每次垃圾回收耗費的時間。
在 spark-submit腳本中，添加一個配置：

--conf "spark.executor.extraJavaOptions=-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimesStamps"

注意：輸出到worker的日志中，而不是driver日志。

/usr/local/spark-2.1.0-bin-hadoop2.7/work/app-20190705055405-0000/0
這是driver日志

/usr/local/spark-2.1.0-bin-hadoop2.7/logs
這是worker日志

2.5.4 優(yōu)化Executor內(nèi)存比例

? 對于GC調(diào)優(yōu)來說，最重要的調(diào)節(jié)，RDD緩存占用的內(nèi)存空間與算子執(zhí)行是創(chuàng)建對象所占用的內(nèi)存空間的比例。默認情況下，Spark使用每個Executor 60%的內(nèi)存空間來緩存RDD，那么在task執(zhí)行期間創(chuàng)建的對象，只有40%的內(nèi)存空間來存放對象。
? 在這種情況下，很有可能因為內(nèi)存不足，task創(chuàng)建的對象過大，導(dǎo)致40%的內(nèi)存空間不夠用，觸發(fā)Java虛擬機垃圾回收操作。在極端的情況下，垃圾回收操作會被頻繁觸發(fā)。
? 根據(jù)實際情況，可以增大對象存儲空間，減少gc發(fā)生概率，方式：

conf.set("spark.storage.memoryFraction",0.5)
將RDD緩存占用空間比例降低到50%

2.6 shuffle

? 以往在spark1.x版本中，如果有shuffle時，那么每個map task就會根據(jù)result task(也可以叫reduce task)的個數(shù)，對map結(jié)果進行分區(qū)，分別給不同的result task處理，每個分區(qū)產(chǎn)生一個文件。當map數(shù)量很多時，就會產(chǎn)生大量文件，這會帶來性能問題。
? 在spark2.x中，將一個map task輸出的數(shù)據(jù)都放在一個文件中，然后加上一個索引文件，用于標識不同分區(qū)數(shù)據(jù)在文件中的位置，這樣就保證了一個task只產(chǎn)生一個文件。從而降低了IO壓力

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

文章題目：六、spark--spark調(diào)優(yōu)-創(chuàng)新互聯(lián)
URL標題：http://www.bm7419.com/article8/dcdcop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站內(nèi)鏈、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計公司、ChatGPT、商城網(wǎng)站、動態(tài)網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容