深入了解apachekafka數(shù)據(jù)采集-創(chuàng)新互聯(lián)

apache kafka數(shù)據(jù)采集是什么?相信大部分人都不太了解,今天小編為了讓大家更加了解apache kafka數(shù)據(jù)采集,給大家總結(jié)了以下內(nèi)容,一起往下看吧。

創(chuàng)新互聯(lián)公司堅(jiān)信:善待客戶,將會(huì)成為終身客戶。我們能堅(jiān)持多年,是因?yàn)槲覀円恢笨芍档眯刨?。我們從不忽悠初訪客戶,我們用心做好本職工作,不忘初心,方得始終。10多年網(wǎng)站建設(shè)經(jīng)驗(yàn)創(chuàng)新互聯(lián)公司是成都老牌網(wǎng)站營(yíng)銷服務(wù)商,為您提供網(wǎng)站制作、成都網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、H5場(chǎng)景定制、網(wǎng)站制作、成都品牌網(wǎng)站建設(shè)、重慶小程序開發(fā)公司服務(wù),給眾多知名企業(yè)提供過好品質(zhì)的建站服務(wù)。

Apache Kafka - 介紹

Apache Kafka起源于LinkedIn,后來成為2011年的開源Apache項(xiàng)目,然后在2012年成為Apache的一流項(xiàng)目。Kafka以Scala和Java編寫。Apache Kafka是基于發(fā)布訂閱的容錯(cuò)消息系統(tǒng)。它是快速,可擴(kuò)展和分布的設(shè)計(jì)。

本教程將探討Kafka的原理,安裝,操作,然后將介紹Kafka集群的部署。最后,我們將總結(jié)實(shí)時(shí)應(yīng)用和與Big Data Technologies的集成。

在進(jìn)行本教程之前,您必須對(duì) Java,Scala,分布式消息系統(tǒng)和Linux環(huán)境有很好的了解。

在大數(shù)據(jù)中,使用了大量的數(shù)據(jù)。關(guān)于數(shù)據(jù),我們有兩個(gè)主要挑戰(zhàn)。第一個(gè)挑戰(zhàn)是如何收集大量數(shù)據(jù),第二個(gè)挑戰(zhàn)是分析收集的數(shù)據(jù)。為了克服這些挑戰(zhàn),您需要一個(gè)消息系統(tǒng)。

Kafka專為分布式高吞吐量系統(tǒng)而設(shè)計(jì)。Kafka作為一個(gè)更傳統(tǒng)的郵件經(jīng)紀(jì)人的替代品往往運(yùn)作良好。與其他消息系統(tǒng)相比,Kafka具有更好的吞吐量,內(nèi)置的分區(qū),復(fù)制和固有的容錯(cuò)能力,使其非常適合大規(guī)模的消息處理應(yīng)用。

什么是郵件系統(tǒng)?

消息系統(tǒng)負(fù)責(zé)將數(shù)據(jù)從一個(gè)應(yīng)用程序傳輸?shù)搅硪粋€(gè)應(yīng)用程序,因此應(yīng)用程序可以專注于數(shù)據(jù),但不用擔(dān)心如何共享數(shù)據(jù)。分布式消息傳遞基于可靠消息隊(duì)列的概念。消息在客戶端應(yīng)用程序和消息系統(tǒng)之間異步排隊(duì)。兩種類型的消息傳遞模式是可用的 - 一種是點(diǎn)對(duì)點(diǎn),另一種是發(fā)布訂閱(pub-sub)消息系統(tǒng)。大多數(shù)消息傳遞模式跟隨pub-sub。

點(diǎn)到點(diǎn)信息系統(tǒng)

在點(diǎn)對(duì)點(diǎn)系統(tǒng)中,消息將保留在隊(duì)列中。一個(gè)或多個(gè)消費(fèi)者可以使用隊(duì)列中的消息,但是特定消息可以由最多僅一個(gè)消費(fèi)者消費(fèi)。一旦消費(fèi)者讀取隊(duì)列中的消息,它將從該隊(duì)列中消失。該系統(tǒng)的典型示例是訂單處理系統(tǒng),其中每個(gè)訂單將由一個(gè)訂單處理器處理,但多訂單處理器可以同時(shí)工作。下圖描繪了結(jié)構(gòu)。

深入了解apache kafka數(shù)據(jù)采集

發(fā)布訂閱消息系統(tǒng)

在發(fā)布訂閱系統(tǒng)中,郵件將保留在主題中。與點(diǎn)對(duì)點(diǎn)系統(tǒng)不同,消費(fèi)者可以訂閱一個(gè)或多個(gè)主題并消費(fèi)該主題中的所有消息。在Publish-Subscribe系統(tǒng)中,消息生成器被稱為發(fā)布者,消息消費(fèi)者被稱為訂戶。一個(gè)現(xiàn)實(shí)的例子是Dish TV,它發(fā)布不同的頻道,如運(yùn)動(dòng),電影,音樂等,任何人都可以訂閱自己的頻道,并獲得他們的訂閱頻道。

深入了解apache kafka數(shù)據(jù)采集

什么是Kafka?

Apache Kafka是分布式發(fā)布訂閱消息傳遞系統(tǒng)和強(qiáng)大的隊(duì)列,可以處理大量數(shù)據(jù),并使您能夠?qū)⑾囊粋€(gè)端點(diǎn)傳遞到另一個(gè)終端。Kafka適用于離線和在線消息消費(fèi)。Kafka消息被保留在磁盤上,并在集群內(nèi)復(fù)制以防止數(shù)據(jù)丟失。Kafka建立在ZooKeeper同步服務(wù)之上。它與Apache Storm和Spark完美結(jié)合,實(shí)時(shí)流式傳輸數(shù)據(jù)分析。

優(yōu)點(diǎn) 以下是Kafka的幾個(gè)好處 -

可靠性 - Kafka是分布式,分區(qū)式,復(fù)制型和容錯(cuò)型。

可擴(kuò)展性 - Kafka消息系統(tǒng)輕松擴(kuò)展,無需停機(jī)時(shí)間。

耐用性 - Kafka使用分布式提交日志,這意味著郵件盡可能快地依然存在于磁盤上,因此它是耐用的。

性能 - Kafka對(duì)于發(fā)布和訂閱消息都具有高吞吐量。它保持穩(wěn)定的性能,即使存儲(chǔ)了許多TB的消息。

Kafka非??欤WC零停機(jī)和零數(shù)據(jù)丟失。

用例

Kafka可用于許多用例。其中有些列在下面 -

指標(biāo) - Kafka經(jīng)常用于運(yùn)行監(jiān)控?cái)?shù)據(jù)。這涉及從分布式應(yīng)用程序聚合統(tǒng)計(jì)信息,以產(chǎn)生操作數(shù)據(jù)的集中式提要。

日志聚合解決方案 - Kafka可以在整個(gè)組織中使用,從多個(gè)服務(wù)收集日志,并以標(biāo)準(zhǔn)格式提供給多個(gè)服務(wù)器。

流處理 - 流行框架(如Storm和Spark

Streaming)從主題讀取數(shù)據(jù),處理它,并將處理后的數(shù)據(jù)寫入可用于用戶和應(yīng)用程序的新主題。Kafka的強(qiáng)大耐用性在流處理方面也非常有用。

Kafka需要

Kafka是處理所有實(shí)時(shí)數(shù)據(jù)源的統(tǒng)一平臺(tái)。Kafka支持低延遲消息傳遞,并在存在機(jī)器故障的情況下保證容錯(cuò)。它具有處理大量不同消費(fèi)者的能力。Kafka非??欤瑘?zhí)行200萬次寫/秒。Kafka將所有數(shù)據(jù)保留到磁盤,這實(shí)質(zhì)上意味著所有的寫入都將轉(zhuǎn)到操作系統(tǒng)(RAM)的頁面緩存。這將數(shù)據(jù)從頁面緩存?zhèn)鬏數(shù)骄W(wǎng)絡(luò)套接字非常有效。

看完上訴內(nèi)容,你們對(duì)apache kafka數(shù)據(jù)采集大概了解了嗎?如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!

文章名稱:深入了解apachekafka數(shù)據(jù)采集-創(chuàng)新互聯(lián)
文章出自:http://bm7419.com/article0/iggoo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)、網(wǎng)站內(nèi)鏈、網(wǎng)站設(shè)計(jì)、網(wǎng)頁設(shè)計(jì)公司網(wǎng)站改版、自適應(yīng)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)