ApacheHudi怎么安裝配置Alluxio

今天小編給大家分享一下Apache Hudi怎么安裝配置Alluxio的相關(guān)知識點,內(nèi)容詳細,邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。

成都創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供北關(guān)網(wǎng)站建設(shè)、北關(guān)做網(wǎng)站、北關(guān)網(wǎng)站設(shè)計、北關(guān)網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、北關(guān)企業(yè)網(wǎng)站模板建站服務(wù),十余年北關(guān)做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。

1. 什么是Alluxio

Alluxio為數(shù)據(jù)驅(qū)動型應(yīng)用和存儲系統(tǒng)構(gòu)建了橋梁, 將數(shù)據(jù)從存儲層移動到距離數(shù)據(jù)驅(qū)動型應(yīng)用更近的位置從而能夠更容易被訪問。這還使得應(yīng)用程序能夠通過一個公共接口連接到許多存儲系統(tǒng)。Alluxio內(nèi)存至上的層次化架構(gòu)使得數(shù)據(jù)的訪問速度能比現(xiàn)有方案快幾個數(shù)量級。

對于用戶應(yīng)用程序和計算框架,Alluxio提供了快速存儲,促進了作業(yè)之間的數(shù)據(jù)共享和局部性。當(dāng)數(shù)據(jù)位于本地時,Alluxio可以以內(nèi)存速度提供數(shù)據(jù);當(dāng)數(shù)據(jù)位于Alluxio時,Alluxio可以以計算集群網(wǎng)絡(luò)的速度提供數(shù)據(jù)。第一次訪問數(shù)據(jù)時,只從存儲系統(tǒng)上讀取一次數(shù)據(jù)。為了得到更好的性能,Alluxio推薦部署在計算集群上。

對于存儲系統(tǒng),Alluxio彌補了大數(shù)據(jù)應(yīng)用與傳統(tǒng)存儲系統(tǒng)之間的差距,擴大了可用的數(shù)據(jù)工作負載集。當(dāng)同時掛載多個數(shù)據(jù)源時,Alluxio可以作為任意數(shù)量的不同數(shù)據(jù)源的統(tǒng)一層。

Alluxio可以被分為三個部分:masters、workers以及clients。一個典型的設(shè)置由一個主服務(wù)器、多個備用服務(wù)器和多個worker組成??蛻舳擞糜谕ㄟ^Spark或MapReduce作業(yè)、Alluxio命令行等與Alluxio服務(wù)器通信。

Apache Hudi怎么安裝配置Alluxio    

2. 什么是Apache Hudi

Apache Hudi使得您能在hadoop兼容的存儲之上存儲大量數(shù)據(jù),同時它還提供兩種原語,使得除了經(jīng)典的批處理之外,還可以在數(shù)據(jù)湖上進行流處理。這兩種原語分別是:

  • Update/Delete記錄:Hudi使用細粒度的文件/記錄級別索引來支持Update/Delete記錄,同時還提供寫操作的事務(wù)保證。查詢會處理最后一個提交的快照,并基于此輸出結(jié)果。
  • 變更流:Hudi對獲取數(shù)據(jù)變更提供了一流的支持:可以從給定的時間點獲取給定表中已updated/inserted/deleted的所有記錄的增量流,并解鎖新的查詢姿勢(類別)
Apache Hudi怎么安裝配置Alluxio    

3. 步驟

3.1 環(huán)境準(zhǔn)備

參考官網(wǎng)安裝搭建alluxio環(huán)境 

3.2 執(zhí)行

在hudi可以加載到的cores-site.xml 文件里面追加此配置

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>
 

將此依賴添加進工程pom.xml

<dependency>
  <groupId>org.alluxio</groupId>
  <artifactId>alluxio-shaded-client</artifactId>
  <version>2.2.1</version>
</dependency>
 

用戶可以把jar包放在spark可以加載的地方或者通過以下方式引入

--jars alluxio-shaded-client-2.2.1.jar 

這時只需要把數(shù)據(jù)寫入alluxio即可,使用deltastreamer的使用需要如下配置

--target-base-path alluxio://........ 

完成上述步驟就已經(jīng)完成了把hudi數(shù)據(jù)寫入了alluxio的工作。事實上這個時候數(shù)據(jù)還未從hdfs加載到alluxio,需要查詢一次即可;查詢不同的hudi視圖方式

  • 可以使用hive sql查詢。使用命令查詢hive表結(jié)構(gòu)發(fā)現(xiàn)loaction已經(jīng)指向了alluxio
  • 可以使用spark sql查詢。     spark.read.format("org.apache.hudi").option(xxx).load("alluxio://")

3.3 驗證

驗證在未進行查詢的時候數(shù)據(jù)不會加載進alluxio,in-alluxio是0%,當(dāng)進行一次查詢之后數(shù)據(jù)從hdfs加載進alluxio,in-alluxio大于0%。

Apache Hudi怎么安裝配置Alluxio 

以上就是“Apache Hudi怎么安裝配置Alluxio”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學(xué)習(xí)更多的知識,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

當(dāng)前名稱:ApacheHudi怎么安裝配置Alluxio
分享鏈接:http://bm7419.com/article22/pcdocc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化自適應(yīng)網(wǎng)站、網(wǎng)站建設(shè)、面包屑導(dǎo)航、外貿(mào)建站、網(wǎng)站設(shè)計公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)