Hadoop中HDFS優(yōu)缺點(diǎn)有哪些

小編給大家分享一下Hadoop中HDFS優(yōu)缺點(diǎn)有哪些,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

成都創(chuàng)新互聯(lián)歡迎咨詢(xún):18980820575,為您提供成都網(wǎng)站建設(shè)網(wǎng)頁(yè)設(shè)計(jì)及定制高端網(wǎng)站建設(shè)服務(wù),成都創(chuàng)新互聯(lián)網(wǎng)頁(yè)制作領(lǐng)域十多年,包括成都搬家公司等多個(gè)行業(yè)擁有多年的營(yíng)銷(xiāo)推廣經(jīng)驗(yàn),選擇成都創(chuàng)新互聯(lián),為網(wǎng)站錦上添花!

HDFS的優(yōu)點(diǎn)

        1、處理超大文件

                這里的超大文件通常是指百M(fèi)B、甚至數(shù)百TB大小的文件。目前在實(shí)際應(yīng)用中,HDFS已經(jīng)能用來(lái)存儲(chǔ)管理PB級(jí)的數(shù)據(jù)了。

        2、流式的訪(fǎng)問(wèn)數(shù)據(jù)

                HDFS的設(shè)計(jì)建立在“一次寫(xiě)入、多次讀寫(xiě)”任務(wù)的基礎(chǔ)上。這意味著一個(gè)數(shù)據(jù)集一旦由數(shù)據(jù)源生成,就會(huì)被復(fù)制分發(fā)到不同的存儲(chǔ)節(jié)點(diǎn)中,然后響應(yīng)各種各樣的數(shù)據(jù)分析任務(wù)請(qǐng)求。在多數(shù)情況下,分析任務(wù)都會(huì)涉及數(shù)據(jù)集中的大部分?jǐn)?shù)據(jù),也就是說(shuō),對(duì)HDFS來(lái)說(shuō),請(qǐng)求讀取整個(gè)數(shù)據(jù)集要比讀取一條記錄更加高效。

        3、運(yùn)行于廉價(jià)的商用機(jī)器集群上

                Hadoop設(shè)計(jì)對(duì)應(yīng)急需求比較低,只須運(yùn)行在低廉的商用硬件集群上,而無(wú)需在昂貴的高可用性機(jī)器上。廉價(jià)的商用機(jī)也就意味著大型集群中出現(xiàn)節(jié)點(diǎn)故障情況的概率非常高。HDFS遇到了上述故障時(shí),被設(shè)計(jì)成能夠繼續(xù)運(yùn)行且不讓用戶(hù)察覺(jué)到明顯的中斷。

HDFS的缺點(diǎn)

        1、不適合低延遲數(shù)據(jù)訪(fǎng)問(wèn)

                如果要處理一些用戶(hù)要求時(shí)間比較短的低延遲應(yīng)用請(qǐng)求,則HDFS不適合。HDFS是為了處理大型數(shù)據(jù)集分析任務(wù)的,主要是為達(dá)到高的數(shù)據(jù)吞吐量而設(shè)計(jì)的,這就可能要求以高延遲作為代價(jià)。

                改進(jìn)策略

                        對(duì)于那些有低延時(shí)要求的應(yīng)用程序,HBase是一個(gè)更好的選擇,通過(guò)上層數(shù)據(jù)管理項(xiàng)目盡可能地彌補(bǔ)這個(gè)不足。在性能上有了很大的提升,它的口號(hào)是goes real time。使用緩存或多個(gè)master設(shè)計(jì)可以降低Clinet的數(shù)據(jù)請(qǐng)求壓力,以減少延時(shí)。

        2、無(wú)法高效存儲(chǔ)大量的小文件

                因?yàn)镹ameNode把文件系統(tǒng)的元數(shù)據(jù)放置在內(nèi)存中,所有文件系統(tǒng)所能容納的文件數(shù)目是由NameNode的內(nèi)存大小來(lái)決定。還有一個(gè)問(wèn)題就是,因?yàn)镸apTask的數(shù)量是由Splits來(lái)決定的,所以用MR處理大量的小文件時(shí),就會(huì)產(chǎn)生過(guò)多的MapTask,線(xiàn)程管理開(kāi)銷(xiāo)將會(huì)增加作業(yè)時(shí)間。當(dāng)Hadoop處理很多小文件(文件大小小于HDFS中Block大小)的時(shí)候,由于FileInputFormat不會(huì)對(duì)小文件進(jìn)行劃分,所以每一個(gè)小文件都會(huì)被當(dāng)做一個(gè)Split并分配一個(gè)Map任務(wù),導(dǎo)致效率底下。

                例如:一個(gè)1G的文件,會(huì)被劃分成16個(gè)64MB的Split,并分配16個(gè)Map任務(wù)處理,而10000個(gè)100Kb的文件會(huì)被10000個(gè)Map任務(wù)處理。

                改進(jìn)策略

                        要想讓HDFS能處理好小文件,有不少方法。利用SequenceFile、MapFile、Har等方式歸檔小文件,這個(gè)方法的原理就是把小文件歸檔起來(lái)管理,HBase就是基于此的。

        3、不支持多用戶(hù)寫(xiě)入及任意修改文件

                在HDFS的一個(gè)文件中只有一個(gè)寫(xiě)入者,而且寫(xiě)操作只能在文件末尾完成,即只能執(zhí)行追加操作,目前HDFS還不支持多個(gè)用戶(hù)對(duì)同一文件的寫(xiě)操作,以及在文件任意位置進(jìn)行修改。

以上是“Hadoop中HDFS優(yōu)缺點(diǎn)有哪些”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

網(wǎng)站標(biāo)題:Hadoop中HDFS優(yōu)缺點(diǎn)有哪些
鏈接URL:http://bm7419.com/article8/iehgip.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、虛擬主機(jī)、外貿(mào)網(wǎng)站建設(shè)網(wǎng)站維護(hù)、用戶(hù)體驗(yàn)標(biāo)簽優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)