大數(shù)據(jù)存儲HDFS的示例分析

這篇文章主要為大家展示了“大數(shù)據(jù)存儲HDFS的示例分析”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“大數(shù)據(jù)存儲HDFS的示例分析”這篇文章吧。

上栗網(wǎng)站制作公司哪家好,找成都創(chuàng)新互聯(lián)公司!從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、自適應(yīng)網(wǎng)站建設(shè)等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營維護(hù)。成都創(chuàng)新互聯(lián)公司于2013年成立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選成都創(chuàng)新互聯(lián)公司。


大數(shù)據(jù)存儲HDFS的示例分析


一、數(shù)據(jù)序列化框架:
FaceBook Thrift:具體序列化和RPC兩個(gè)功能。
Google Protocol Buffers(ProtoBuf):只有序列化功能,不具備RPC功能。
Apache Avro:具體序列化和RPC兩個(gè)功能。
二、序列化框架對比:
解析速度 時(shí)間由小到大:protobuf、thrift、Avro  
序列化大小,由小到大:avro、protobuf、thrift  
三、文件存儲格式:
常見存儲格式包括行式存儲(文本格式Text File、Key/Value二進(jìn)制存儲格式Sequence File)和列式存儲(ORC、Parquet、Carbon Data)
列式存儲對比:ORC通常作為數(shù)據(jù)表的數(shù)據(jù)格式應(yīng)用在hive和presto等計(jì)算引擎中,它們對ORC讀寫進(jìn)行了優(yōu)化,而Parquet提供了非常易用的讀寫API,用戶可在應(yīng)用程序(eg:spark、MapReduce等分布式程序)中直接讀寫Parquet格式的文件,而Carbon Data在索引和數(shù)據(jù)更新方面有良好支撐,可用在多維OLAP分析場景中。
四、分布式文件系統(tǒng)
分為文件級別的分布式系統(tǒng)和塊級別的分布式系統(tǒng)。
文件級別的分布式系統(tǒng):不足之處是難以負(fù)載均衡、難以并行處理
塊級別的分布式系統(tǒng):將文件分為等大的數(shù)據(jù)塊(eg:128M),并以數(shù)據(jù)塊為單位存儲到不同節(jié)點(diǎn)上,進(jìn)而解決文件級別的分布式系統(tǒng)存在的負(fù)載均衡和并行處理問題,HDFS即是塊級別的分布式文件系統(tǒng)。
五、HDFS基本架構(gòu):NameNode、DataNode、Client
HDFS關(guān)鍵技術(shù):容錯性設(shè)計(jì)、副本放置策略、異構(gòu)存儲介質(zhì)(ARCHIVE:高存儲密度但耗電較少的存儲介質(zhì),DISK:磁盤介質(zhì),這是HDFS默認(rèn)存儲介質(zhì),SSD:固態(tài)硬盤,RAM_DISK:數(shù)據(jù)被寫入內(nèi)存中,同時(shí)會往改存儲介質(zhì)中異步一份)、集中式緩存管理(HDFS允許用戶將一部分目錄或文件緩存在off-heap內(nèi)存中)
六、HDFS訪問方式:
1、HDFS shell命名:分為用戶命令和管理員命令
用戶命令:常用的有文件操作命令dfs(eg:創(chuàng)建、上傳、刪掉文件)、文件一致性檢查命令fsck(eg:查看文件塊信息)、分布式文件復(fù)制命令distcp(集群內(nèi)文件或者集群間文件并行復(fù)制)。
管理命令:對服務(wù)生命周期管理,eg:啟動、關(guān)閉NameNode/DataNode、限制目錄使用空間大小。
2、HDFS API:HDFS對外提供了豐富的編程API,允許用戶使用java以及其他編程語言編寫應(yīng)用程序訪問HDFS。
3、數(shù)據(jù)收集組件:Flume(提供的sink hdfs 能夠直接將收集到的數(shù)據(jù)寫入HDFS)、Sqoop(允許用戶指定數(shù)據(jù)寫入HDFS的目錄,文件格式支持Text、SequenceFile兩種格式,壓縮方式支持LZO、Snappy等主流壓縮編碼)
4、計(jì)算引擎方式:SQL方式,Hive、Impala及Presto等查詢引擎均允許用戶直接使用SQL訪問HDFS中的存儲文件。

以上是“大數(shù)據(jù)存儲HDFS的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

分享題目:大數(shù)據(jù)存儲HDFS的示例分析
轉(zhuǎn)載來源:http://bm7419.com/article14/geggge.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)、搜索引擎優(yōu)化、App開發(fā)、域名注冊、全網(wǎng)營銷推廣

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設(shè)計(jì)公司