Hive基礎(chǔ)知識的示例分析

這篇文章主要介紹了Hive基礎(chǔ)知識的示例分析,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

成都創(chuàng)新互聯(lián)專注于企業(yè)營銷型網(wǎng)站建設(shè)、網(wǎng)站重做改版、萊陽網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、成都h5網(wǎng)站建設(shè)、成都做商城網(wǎng)站、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為萊陽等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。

Hive的元數(shù)據(jù)一般存儲在關(guān)系型數(shù)據(jù)庫中,如MySQL;

底層存儲用到的是HDFS分布式存儲系統(tǒng)。它的優(yōu)點:1.?簡單易上手:提供了類SQL查詢語言HQL;2.可擴(kuò)展:為超大數(shù)據(jù)集設(shè)計了計算/擴(kuò)展能力(MR作為計算引擎,HDFS作為存儲系統(tǒng));3.提供統(tǒng)一的元數(shù)據(jù)管理;4.Hive支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求來實現(xiàn)自己的函數(shù):繼承hive的UDF類,重寫evaluate方法;5.容錯:良好的容錯性,節(jié)點出現(xiàn)問題SQL仍可完成執(zhí)行;

缺點:1.Hive的HQL表達(dá)能力有限;2.效率比較低,自動生成的Mapreduce作業(yè),通常情況下不夠智能化,且調(diào)優(yōu)比較困難;

Hive用戶接口

1)HiveCLI(HiveCommandLine,Hive命令行),客戶端可以直接在命令行模式下進(jìn)行操作

2)HWI(HiveWebInterface,HiveWeb接口),Hive提供了更直觀的Web界面

3)hiveserver,Hive提供了Thrift服務(wù),Thrift客戶端目前支持C++/Java/PHP/Python/Ruby

Hive常用文件格式:

Textfile:默認(rèn)格式,數(shù)據(jù)不做壓縮,磁盤開銷大,數(shù)據(jù)解析開銷大;

SEQUENCEFILE:SequenceFile是HadoopAPI提供的一種二進(jìn)制文件支持,其具有使用方便、可分割、可壓縮的特點;

rcfile:RCFILE是一種行列存儲相結(jié)合的存儲方式。首先,其將數(shù)據(jù)按行分塊,保證同一個record在一個塊上,避免讀一個記錄需要讀取多個block。其次,塊數(shù)據(jù)列式存儲,有利于數(shù)據(jù)壓縮和快速的列存取;

parquet:ApacheParquet是Hadoop生態(tài)圈中一種新型列式存儲格式,它可以兼容Hadoop生態(tài)圈中大多數(shù)計算框架;

Hive數(shù)據(jù)導(dǎo)入導(dǎo)出

Hive表中的數(shù)據(jù),同時支持從本地數(shù)據(jù)導(dǎo)入、從其他表導(dǎo)入數(shù)據(jù)、導(dǎo)出數(shù)據(jù)到本地文件系統(tǒng)、導(dǎo)出數(shù)據(jù)到HDFS中

Hive基本語句

Hive建表語句基本跟關(guān)系型數(shù)據(jù)庫建表語句相同,區(qū)別在于語句尾端指定了列分隔符:

ROWFORMATDELIMITEDFIELDSTERMINATEDBY‘,’

指定了列分隔符為“,”;

對于分區(qū)表,會有分區(qū)字段的說明:

PARTITIONEDBY(countrySTRING,stateSTRING)

用“country“、”state”兩個字段分區(qū);

以及指定存儲文件的格式:

STOREDASTEXTFILE。

關(guān)于內(nèi)連接、外連接和半連接:

幾種連接區(qū)別簡單概括為:內(nèi)連接只顯示了倆張表都存在的數(shù)據(jù),而外連接則是顯示出所有的數(shù)據(jù),其中左連接是左外邊的表輸出完整數(shù)據(jù)。右外連接是右邊的表輸出完整數(shù)據(jù),全外連接就是兩張表的所有行全部輸出。做半連接用來補(bǔ)充Hive相對于MySQL等語句缺失的in/exists這樣的子句,就用leftjoin代替,和leftjoin的區(qū)別在于右邊的表數(shù)據(jù)不會加載進(jìn)結(jié)果;

orderby和sortby:

ORDERBY會對查詢結(jié)果集執(zhí)行一個全局排序,所有的數(shù)據(jù)都通過一個reducer進(jìn)行處理;SORTBY,其只會在每個reducer中對數(shù)據(jù)進(jìn)行排序,也就是執(zhí)行一個局部排序過程,生產(chǎn)中可以和DISTRIBUTEBY一起用,實現(xiàn)分區(qū)并排序。

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Hive基礎(chǔ)知識的示例分析”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!

網(wǎng)頁名稱:Hive基礎(chǔ)知識的示例分析
分享地址:http://bm7419.com/article38/psojsp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導(dǎo)航、服務(wù)器托管、微信小程序ChatGPT、小程序開發(fā)、軟件開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計