大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理-創(chuàng)新互聯(lián)

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

成都一家集口碑和實力的網(wǎng)站建設(shè)服務(wù)商,擁有專業(yè)的企業(yè)建站團隊和靠譜的建站技術(shù),10多年企業(yè)及個人網(wǎng)站建設(shè)經(jīng)驗 ,為成都1000+客戶提供網(wǎng)頁設(shè)計制作,網(wǎng)站開發(fā),企業(yè)網(wǎng)站制作建設(shè)等服務(wù),包括成都營銷型網(wǎng)站建設(shè),高端網(wǎng)站設(shè)計,同時也為不同行業(yè)的客戶提供網(wǎng)站制作、成都網(wǎng)站設(shè)計的服務(wù),包括成都電商型網(wǎng)站制作建設(shè),裝修行業(yè)網(wǎng)站制作建設(shè),傳統(tǒng)機械行業(yè)網(wǎng)站建設(shè),傳統(tǒng)農(nóng)業(yè)行業(yè)網(wǎng)站制作建設(shè)。在成都做網(wǎng)站,選網(wǎng)站制作建設(shè)服務(wù)商就選創(chuàng)新互聯(lián)建站。

一、背景

企業(yè)中大量業(yè)務(wù)數(shù)據(jù)保存在各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中,過去通常的同步數(shù)據(jù)的方法有很多種,比如:

  • 各個數(shù)據(jù)使用方在業(yè)務(wù)低峰期各種抽取所需數(shù)據(jù)(缺點是存在重復抽取而且數(shù)據(jù)不一致)

  • 由統(tǒng)一的數(shù)倉平臺通過sqoop到各個系統(tǒng)中抽取數(shù)據(jù)(缺點是sqoop抽取方法時效性差,一般都是T+1的時效性)

  • 基于trigger或時間戳的方式獲得增量的變更(缺點是對業(yè)務(wù)方侵入性大,帶來性能損失等)

這些方案都不能算完美,我們在了解和考慮了不同實現(xiàn)方式后,認為要想同時解決數(shù)據(jù)一致性和實時性,比較合理的方法應(yīng)該是基于日志的解決方案,同時能夠提供消息訂閱的方式給下游系統(tǒng)使用。

DBus(數(shù)據(jù)總線)項目就是應(yīng)這個需求而生的,DBus專注于數(shù)據(jù)的收集及實時數(shù)據(jù)流計算,通過簡單靈活的配置,以無侵入的方式對源端數(shù)據(jù)進行采集,采用高可用的流式計算框架,對公司各個IT系統(tǒng)在業(yè)務(wù)流程中產(chǎn)生的數(shù)據(jù)進行匯聚,經(jīng)過轉(zhuǎn)換處理后成為統(tǒng)一JSON的數(shù)據(jù)格式(UMS),提供給不同數(shù)據(jù)使用方訂閱和消費,充當數(shù)倉平臺、大數(shù)據(jù)分析平臺、實時報表和實時營銷等業(yè)務(wù)的數(shù)據(jù)源。

二、系統(tǒng)架構(gòu)和工作原理

DBUS主要分為兩個部分:貼源數(shù)據(jù)采集和多租戶數(shù)據(jù)分發(fā)。兩個部分之間以Kafka為媒介進行銜接。無多租戶資源、數(shù)據(jù)隔離需求的用戶,可以直接消費源端數(shù)據(jù)采集這一級輸出到kafka的數(shù)據(jù),無需再配置多租戶數(shù)據(jù)分發(fā)。

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

2.1 DBUS源端數(shù)據(jù)采集

DBUS源端數(shù)據(jù)采集大體來說分為2部分:

  • 讀取RDBMS增量日志的方式來 實時獲取增量數(shù)據(jù)日志,并支持全量拉??;

  • 基于logtash,flume,filebeat等抓取工具來實時獲得數(shù)據(jù),以可視化的方式對數(shù)據(jù)進行結(jié)構(gòu)化輸出。

以下為具體實現(xiàn)原理

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

主要模塊如下:

  • 日志抓取模塊:從RDBMS的備庫中讀取增量日志,并實時同步到kafka中;

  • 增量轉(zhuǎn)換模塊:將增量數(shù)據(jù)實時轉(zhuǎn)換為UMS數(shù)據(jù),處理schema變更,脫敏等;

  • 全量抽取程序:將全量數(shù)據(jù)從RDBMS備庫拉取并轉(zhuǎn)換為UMS數(shù)據(jù);

  • 日志算子處理模塊:將來自不同抓取端的日志數(shù)據(jù)按照算子規(guī)則進行結(jié)構(gòu)化處理;

  • 心跳監(jiān)控模塊:對于RDMS類源,定時向源端發(fā)送心跳數(shù)據(jù),并在末端進行監(jiān)控,發(fā)送預警通知;對于日志類,直接在末端監(jiān)控預警。

  • web管理模塊:管理所有相關(guān)模塊。

2.2 多租戶數(shù)據(jù)分發(fā)

對于不同租戶對不同源端數(shù)據(jù)有不同訪問權(quán)限、脫敏需求的情形,需要引入Router分發(fā)模塊,將源端貼源數(shù)據(jù),根據(jù)配置好的權(quán)限、用戶有權(quán)獲取的源端表、不同脫敏規(guī)則等,分發(fā)到分配給租戶的Topic。這一級的引入,在DBUS管理系統(tǒng)中,涉及到用戶管理、Sink管理、資源分配、脫敏配置等。不同項目消費分配給他的topic。

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

主要功能:

  • 無侵入方式接入多種數(shù)據(jù)源: 業(yè)務(wù)系統(tǒng)無需任何修改,以無侵入性讀取數(shù)據(jù)庫系統(tǒng)的日志獲得增量數(shù)據(jù)實時變化。目前RDBMS支持mysql,oracle數(shù)據(jù)源(Oracle數(shù)據(jù)源請參考Oracle相關(guān)協(xié)議), 日志方面支持基于logstash,flume和filebeat的多種數(shù)據(jù)日志抽取方案。

  • 海量數(shù)據(jù)實時傳輸: 使用基于Storm的流式計算框架,秒級延時,整體無單點保證高可用性。

  • 多租戶支持: 提供用戶管理、資源分配、Topology管理、租戶表管理等豐富的功能,可根據(jù)需求,為不同租戶分配不同的源端表數(shù)據(jù)訪問權(quán)限,應(yīng)用不同的脫敏規(guī)則,從而實現(xiàn)多租戶資源隔離、差異化數(shù)據(jù)安全。

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

  • 感知源端schema變更: 當源端發(fā)生schema變更時,能自動感知schema變化,調(diào)整UMS版本號,并通過Kafka消息和郵件通知下游

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

  • 數(shù)據(jù)實時脫敏: 可根據(jù)需求對指定列數(shù)據(jù)進行實時脫敏。脫敏策略包括:直接替換、MD5、murmur等脫敏算法,脫敏加鹽,正則表達式替換等。支持用戶開發(fā)jar包實現(xiàn)DBUS未覆蓋的個性化脫敏策略。 

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

  • 初始化加載: 支持高效的初始化加載和重新加載,支持任意指定輸出topic,靈活應(yīng)對客戶需求。

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

  • 統(tǒng)一標準化消息傳輸協(xié)議: 使用統(tǒng)一的UMS(JSON格式)消息schema格式輸出便于消費,提供數(shù)據(jù)線級ums_id保證數(shù)據(jù)順序性,輸出insert,Update(before/after),Delete event數(shù)據(jù)。

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

  • 可靠多路消息訂閱分發(fā): 使用Kafka存儲和傳遞消息保證可靠性和便捷的多用戶訂閱

  • 支持分區(qū)表/系列表數(shù)據(jù)匯集: 支持分區(qū)表的數(shù)據(jù)匯集到一個“邏輯表” 。也可將用戶自定義的系列表數(shù)據(jù)匯集到一個“邏輯表“。例:

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

  • 實時監(jiān)控&預警: 可視化監(jiān)控系統(tǒng)能隨時查看各數(shù)據(jù)線實時流量和延時狀況;當數(shù)據(jù)線發(fā)生異常時,根據(jù)配置策略自動發(fā)郵件或短信通知相關(guān)負責人

大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進一步的了解或閱讀更多相關(guān)文章,請關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道,感謝您對創(chuàng)新互聯(lián)的支持。

當前標題:大數(shù)據(jù)總線平臺DBus設(shè)計思路與工作原理-創(chuàng)新互聯(lián)
URL網(wǎng)址:http://bm7419.com/article26/gogjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導航、外貿(mào)網(wǎng)站建設(shè)、手機網(wǎng)站建設(shè)營銷型網(wǎng)站建設(shè)、小程序開發(fā)、網(wǎng)站設(shè)計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設(shè)計公司