DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐-創(chuàng)新互聯(lián)

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

成都創(chuàng)新互聯(lián)公司從2013年創(chuàng)立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目做網(wǎng)站、網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命,1280元鄰水做網(wǎng)站,已為上家服務(wù),為鄰水各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18980820575

一、關(guān)于數(shù)據(jù)融合和企業(yè)數(shù)據(jù)融合平臺(tái)

數(shù)據(jù)融合是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。

企業(yè)數(shù)據(jù)融合平臺(tái),通常的表現(xiàn)形態(tài)為運(yùn)行著大量數(shù)據(jù)同步和轉(zhuǎn)換任務(wù)的分布式系統(tǒng)。其源端一般為各類偏實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)存儲(chǔ)系統(tǒng),目的端為各類數(shù)據(jù)倉庫/對(duì)象存儲(chǔ)。

二、企業(yè)數(shù)據(jù)融合平臺(tái)的典型架構(gòu)

下圖為數(shù)據(jù)融合平臺(tái)的典型架構(gòu),源端是不同的數(shù)據(jù)存儲(chǔ)系統(tǒng),另一端是各種類型的數(shù)據(jù)倉庫,關(guān)系型數(shù)據(jù)庫或者文件存儲(chǔ)等。中間為數(shù)據(jù)融合平臺(tái)的簡單架構(gòu),組件Source connectors負(fù)責(zé)做數(shù)據(jù)的采集。

將數(shù)據(jù)采集之后,會(huì)將其做成格式化數(shù)據(jù)放到Transport Channel,Transport Channel一般會(huì)用Source隊(duì)列或其它流式數(shù)據(jù)框架,負(fù)責(zé)做中間的緩存,包括分布式的支持,數(shù)據(jù)的分發(fā), sink connectors去負(fù)責(zé)把數(shù)據(jù)分別寫入不同的數(shù)據(jù)目的地。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

三、企業(yè)數(shù)據(jù)融合需要解決的關(guān)鍵問題

  1. 數(shù)據(jù)異構(gòu)問題

面臨繁瑣的數(shù)據(jù)源和目的地適配以及異構(gòu)數(shù)據(jù)源的轉(zhuǎn)換問題。

  1. 隨時(shí)變化的數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)源結(jié)構(gòu)會(huì)隨時(shí)發(fā)生變化,造成下游寫入失敗。當(dāng)數(shù)據(jù)結(jié)構(gòu)發(fā)生改變時(shí),需要保證數(shù)據(jù)像正常一樣,不會(huì)出現(xiàn)任何問題。

  1. 數(shù)據(jù)平臺(tái)的擴(kuò)展性

需要根據(jù)業(yè)務(wù)驅(qū)動(dòng)做水平拓展,甚至需應(yīng)對(duì)一對(duì)多的分發(fā)要求,另外也需要處理和解決多任務(wù)并行的QoS。

  1. 數(shù)據(jù)一致性

在任何情況下都需要保證數(shù)據(jù)是一致的,這也是在生產(chǎn)過程中需要保證的問題。

四、消息隊(duì)列在數(shù)據(jù)融合平臺(tái)的作用

首先是解耦,消息隊(duì)列可以將源端的數(shù)據(jù)采集跟移動(dòng)端的數(shù)據(jù)完全進(jìn)行解耦。如果數(shù)據(jù)寫入端出現(xiàn)任何問題,不會(huì)影響數(shù)據(jù)采集的穩(wěn)定型。

Schema Mapping幫助我們做到了數(shù)據(jù)源和目的地結(jié)構(gòu)的解耦,減少開發(fā)新的connector的復(fù)雜度。

同時(shí)消息隊(duì)列提供了水平拓展和高可用的性質(zhì),當(dāng)需要接入更多數(shù)據(jù)且系統(tǒng)不能支撐時(shí),我們可以輕易的做水平拓展,支持更大的數(shù)據(jù)量。

另外,對(duì)消息隊(duì)列和數(shù)據(jù)同步一致性的問題做了保證,至少能保證數(shù)據(jù)同步的順序性。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

五、DataPipeline現(xiàn)有架構(gòu)

下圖為DataPipeline基于Kafka connect消息隊(duì)列所做的架構(gòu),Kafka本身是一個(gè)非常成熟的消息隊(duì)列,Kafka connect是其下面的一個(gè)子項(xiàng)目,相當(dāng)于給kafka consumer 和 kafka producer提供了一個(gè)封裝,它實(shí)現(xiàn)了分布式和高可用,同時(shí)幫助我們負(fù)責(zé)和kakfa進(jìn)行交互。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

六、Kafka connect-offset管理

消費(fèi)者會(huì)有一個(gè)offset的概念,用來記錄消費(fèi)進(jìn)度,Kafka connect會(huì)自動(dòng)化地做消息offset的管理,它可以等我們消費(fèi)完一些數(shù)據(jù)之后,自動(dòng)提交消費(fèi)進(jìn)度,然后在Kafka中做存儲(chǔ)。

在讀取數(shù)據(jù)的時(shí)候, connector會(huì)將數(shù)據(jù)從數(shù)據(jù)源抽取出來寫到data topic,用來做數(shù)據(jù)中間的緩存。同時(shí)connector在同步過程中也會(huì)周期性的將offset提交到offset Topic,相當(dāng)于每讀取一段時(shí)間,存一個(gè)存檔點(diǎn)。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

周期性的offset提交如果失敗的話,會(huì)導(dǎo)致數(shù)據(jù)任務(wù)重啟恢復(fù)時(shí)無法完全恢復(fù)到最后寫入的offset點(diǎn)。這種情況就會(huì)導(dǎo)致數(shù)據(jù)的重復(fù)讀取和重復(fù)寫入,會(huì)出現(xiàn)數(shù)據(jù)一致性的問題,以下解決方案可以從一定程度上避免這個(gè)問題:

  1. 依賴目的地的特性進(jìn)行去重達(dá)到數(shù)據(jù)的最終一致性,例如: RDBMS用主鍵進(jìn)行去重。

  2. 依賴消息隊(duì)列的事務(wù)信息避免源端重復(fù),保證數(shù)據(jù)寫入和offset寫入的事務(wù)性提交。

  3. 目的端在寫入后記錄單獨(dú)的offset到redis緩存,并在任務(wù)恢復(fù)之后根據(jù)offset進(jìn)行過濾,避免重復(fù)寫入。減少offset rewind帶來的數(shù)據(jù)重復(fù),但是由于寫入數(shù)據(jù)和記錄offset并不是事務(wù)操作,所以也不保證exactly once delivery。

  4. 依賴目的地的事務(wù)性,在目的地建立臨時(shí)空間記錄寫入的offset,并在任務(wù)恢復(fù)之后根據(jù)offset進(jìn)行過濾,避免重復(fù)寫入,可以保證exactly once delivery。但是要求目的地可以支持事務(wù)性,并且會(huì)在目的地有額外的數(shù)據(jù)存儲(chǔ)。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

分享標(biāo)題:DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐-創(chuàng)新互聯(lián)
分享網(wǎng)址:http://bm7419.com/article2/hcsic.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、靜態(tài)網(wǎng)站、域名注冊、品牌網(wǎng)站建設(shè)網(wǎng)站內(nèi)鏈、定制開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計(jì)