數(shù)據(jù)分析：Hive、Pig和Impala-創(chuàng)新互聯(lián)

本文主要分享Hadoop三大分析工具：Hive、Pig和Impala。

我們擁有10余年網(wǎng)頁設(shè)計(jì)和網(wǎng)站建設(shè)經(jīng)驗(yàn)，從網(wǎng)站策劃到網(wǎng)站制作，我們的網(wǎng)頁設(shè)計(jì)師為您提供的解決方案。為企業(yè)提供成都網(wǎng)站制作、成都網(wǎng)站建設(shè)、微信開發(fā)、微信小程序開發(fā)、手機(jī)網(wǎng)站開發(fā)、HTML5、等業(yè)務(wù)。無論您有什么樣的網(wǎng)站設(shè)計(jì)或者設(shè)計(jì)方案要求，我們都將富于創(chuàng)造性的提供專業(yè)設(shè)計(jì)服務(wù)并滿足您的需求。

Hive和Pig是高級數(shù)據(jù)語言，基于Mapreduce，底層處理的時(shí)候會轉(zhuǎn)換成Mapreduce去提交，Hive和Pig都是開源的，Hive最初由Facebook開發(fā)，Pig最初由Yahoo!開發(fā)，下面進(jìn)行分別介紹：

一、什么是Hive？

Hive可以看做是SQL到Mapreduce的一個(gè)映射器，就是不用開發(fā)Mapreduce，只要懂SQL就可以了，HiveQL是標(biāo)準(zhǔn)SQL92的一個(gè)子集，和標(biāo)準(zhǔn)的SQL并不完全一樣，HiveQL本身有百分之二十的一個(gè)擴(kuò)展，大概百分之八十的語法和標(biāo)準(zhǔn)的SQL是一致的，像

數(shù)據(jù)分析：Hive、Pig和Impala

這種標(biāo)準(zhǔn)的SQL是支持的，所以對于數(shù)據(jù)分析人員來講，就可以很方便的切入到Hadoop的平臺上去做數(shù)據(jù)分析。

二、什么是Pig？

Pig是處理大數(shù)據(jù)集的數(shù)據(jù)流語言。什么是數(shù)據(jù)流呢？就是處理數(shù)據(jù)的流程可以一步步定義，比如第一步加載，第二步轉(zhuǎn)換，第三步再轉(zhuǎn)換，第四步存儲，可以一步步定義數(shù)據(jù)的走向，很類似我們在數(shù)據(jù)挖掘中進(jìn)行的系列處理流程。因?yàn)閜ig是數(shù)據(jù)流的語言，所以很適合做物質(zhì)的數(shù)據(jù)探索和ETL階段數(shù)據(jù)的非處理，他和Spark的思想很相似，所以也可以說Spark是實(shí)現(xiàn)正確的Pig。為什么這樣說？因?yàn)镻ig和Spark都是數(shù)據(jù)流似的處理,pig有轉(zhuǎn)換，行動操作，在spark里面也是一樣。

Pig數(shù)據(jù)流語言

數(shù)據(jù)分析：Hive、Pig和Impala

Pig在ETL階段還是用的很多的，而且對于一些數(shù)據(jù)挖掘人員來說，尤其是探知一些未知數(shù)據(jù)，非常合適。因?yàn)椴恍枰付ㄈ魏蔚拿Q、類型就可以先加載，然后去匹配所有的數(shù)據(jù)，接下來就可以去觀察數(shù)據(jù)是怎樣的，分析怎么去做轉(zhuǎn)換。Pig是一種語義很精準(zhǔn)的語言，所以學(xué)起來也會很方便的。

hive與pig的對比

數(shù)據(jù)分析：Hive、Pig和Impala

三、什么是Impala？

盡管我們有了hive，但是hive是基于mapreduce，它的分析效率并不高，大家都著力去找到一種高性能的SQL的引擎，impala的出現(xiàn)就解決了這一問題。Impala是處理海量數(shù)據(jù)的高性能SQL引擎，它的查詢可以達(dá)到秒及，甚至有些數(shù)據(jù)少的可以達(dá)到毫秒級，延遲很低，比Hive、Pig或MapReduce快10到50倍，它的SQL 也是類似于HiveQL的查詢語言，他和標(biāo)準(zhǔn)的SQL也是有百分之八十的語法重復(fù)，也有自己的擴(kuò)展一部分。Impala它使用的數(shù)據(jù)是和Hive一樣的，就好比在Hive里面創(chuàng)建一個(gè)表，Impala也是可以訪問的，反之也是一樣的。Impala運(yùn)行在Hadoop集群上，數(shù)據(jù)存儲在HDFS，不能使用MapReduce，他有自己的架構(gòu)，也是主存的結(jié)構(gòu)，每一個(gè)服務(wù)可以直接對數(shù)據(jù)塊進(jìn)行訪問。Impala由Cloudera開發(fā)，100%開源，在Apache軟件許可下發(fā)布。

那么有三種數(shù)據(jù)分析方案，在實(shí)際操作中，我們怎樣來使用呢？總體來講Pig沒有Hive和Impala用的多，可是他們各有優(yōu)勢。接下來描述一下他們各自的使用條件：我們知道Impala是近實(shí)時(shí)的查詢，使用數(shù)據(jù)和Hive一樣，那么我們就會去問，為什么還要使用Hive呢？有一些復(fù)雜的文本分析只能用Hive，比如一些CSV的文件，一些高頻詞的分析，統(tǒng)計(jì)分析只能用Hive，Impala不支持.還有一些復(fù)雜類型的使用，比如用到數(shù)組，復(fù)雜的結(jié)構(gòu)體這些也都只能用Hive。Impala主要用于及時(shí)的，交互式的分析，Hive用于穩(wěn)定性挖掘比較高，實(shí)時(shí)性挖掘不高的作業(yè)。Pig也可以支持一些復(fù)雜的類型，但是pig沒有固定的模型，如果做一些做臨時(shí)的數(shù)據(jù)探索可以用。

比較Hive、Pig和Impala

數(shù)據(jù)分析：Hive、Pig和Impala

那么他們可以替代RDBMS嗎？當(dāng)然不行，關(guān)系型數(shù)據(jù)支持事務(wù)，延遲低，隨時(shí)可以修改，而Hive和Impala做不到，所以代替不了關(guān)系型數(shù)據(jù)庫，Pig、Hive和Impala主要適用于大量數(shù)據(jù)讀以及低成本的廣泛擴(kuò)展。

分析工作流示意

數(shù)據(jù)分析：Hive、Pig和Impala

以上就是筆者根據(jù)自己的知識體系給大家分享的數(shù)據(jù)分析內(nèi)容，主要是針對Hive、Pig和Impala各自的特點(diǎn)、應(yīng)用、區(qū)分，以及與傳統(tǒng)數(shù)據(jù)庫的區(qū)別來進(jìn)行闡述，對于深入了解數(shù)據(jù)分析工具在實(shí)際中的運(yùn)用有著重要作用。我在實(shí)際工作和學(xué)習(xí)中喜歡關(guān)注一些大數(shù)據(jù)實(shí)時(shí)資訊，如“大數(shù)據(jù)cn”,對于了解和把握大數(shù)據(jù)的發(fā)展?fàn)顩r有著很大作用，而且也喜歡去看一些別人分享的知識架構(gòu)，比如“大數(shù)據(jù)時(shí)代學(xué)習(xí)中心”，來不斷豐富和完善自己的知識體系，這些都極大促進(jìn)了我的發(fā)展，推薦給大家。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)站名稱：數(shù)據(jù)分析：Hive、Pig和Impala-創(chuàng)新互聯(lián)
文章源于：http://bm7419.com/article18/gdsgp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供外貿(mào)建站、網(wǎng)站內(nèi)鏈、域名注冊、用戶體驗(yàn)、商城網(wǎng)站、微信公眾號

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容