目錄
創(chuàng)新互聯(lián)于2013年開始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命,1280元雄縣做網(wǎng)站,已為上家服務(wù),為雄縣各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108一、數(shù)據(jù)采集、匯聚的方法和工具
1、線上行為采集
2、線下行為采集
3、互聯(lián)網(wǎng)數(shù)據(jù)采集
4、內(nèi)部數(shù)據(jù)匯聚
二、數(shù)據(jù)交換產(chǎn)品
1、數(shù)據(jù)源管理
2、離線數(shù)據(jù)交換
3、實(shí)時(shí)數(shù)據(jù)交換
三、數(shù)據(jù)存儲(chǔ)的選擇
1、在線與離線
2、OLTP與OLAP
3、存儲(chǔ)技術(shù)
構(gòu)建企業(yè)級的數(shù)據(jù)中臺(tái)第一步就是要實(shí)現(xiàn)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)的互聯(lián)互通,從物理上打破數(shù)據(jù)孤島。主要通過數(shù)據(jù)匯聚和交換的能力來實(shí)現(xiàn)。在面對不同場景,根據(jù)數(shù)據(jù)類型、數(shù)據(jù)存儲(chǔ)要求等進(jìn)行不同方案的選擇。
一、數(shù)據(jù)采集、匯聚的方法和工具 1、線上行為采集①客戶端埋點(diǎn)
全埋點(diǎn):在終端設(shè)備上記錄用戶所有的操作行為,一般在內(nèi)嵌SDK做一些初始化配置就可以實(shí)現(xiàn)全部收集行為的目的。也叫無痕埋點(diǎn)、無埋點(diǎn)等。優(yōu)點(diǎn):不用頻繁升級,可獲取全量數(shù)據(jù) 缺點(diǎn):存儲(chǔ)、傳輸成本高
可視化埋點(diǎn):在終端設(shè)備上記錄用戶的一部分操作,一般通過服務(wù)端配置的方式有選擇性的記錄與保存。優(yōu)點(diǎn):不用頻繁發(fā)布,成本比全埋點(diǎn)低,比較靈活;缺點(diǎn):可能未收集到想要的數(shù)據(jù),需要重新配置等
代碼埋點(diǎn):根據(jù)需求定制每次的手機(jī)內(nèi)容,需要對相應(yīng)終端模塊進(jìn)行升級。優(yōu)點(diǎn):靈活性強(qiáng)、可以單獨(dú)設(shè)計(jì)方案,對對存儲(chǔ)、帶寬等可以做較多優(yōu)化;缺點(diǎn):成本高,維護(hù)難度大,升級周期長。
②服務(wù)端埋點(diǎn)
服務(wù)端埋點(diǎn)常見的形態(tài)有HTTP服務(wù)器中的access_log,即所有web服務(wù)的日志數(shù)據(jù)。優(yōu)點(diǎn):降低客戶端的復(fù)雜度、提高信息安全;缺點(diǎn):無法采集客戶端不與服務(wù)端交互的信息。
2、線下行為采集線下數(shù)據(jù)一般通過硬件采集,如Wifi探測針、攝像頭、傳感器等。
3、互聯(lián)網(wǎng)數(shù)據(jù)采集這種數(shù)據(jù)采集方式一般采用網(wǎng)絡(luò)爬蟲,使用一種按照既定規(guī)則自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或腳本,常用來做網(wǎng)站的自動(dòng)化測試和行為模擬。常見的網(wǎng)絡(luò)爬蟲框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互聯(lián)網(wǎng)數(shù)據(jù)采集要遵守相應(yīng)的安全規(guī)范、協(xié)議等
4、內(nèi)部數(shù)據(jù)匯聚①數(shù)據(jù)組織形式分類
結(jié)構(gòu)化數(shù)據(jù):規(guī)則、完整,能夠用二維表來表現(xiàn)的數(shù)據(jù),常見數(shù)據(jù)庫、excel中的數(shù)據(jù)。
半機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)規(guī)則、完整,但不能通過二維表來表現(xiàn)的數(shù)據(jù),比如JSON、XML等復(fù)雜結(jié)構(gòu)
非機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)不規(guī)則、不完整,也不能通過二維表來表現(xiàn),需要復(fù)雜的邏輯才能從中提取,如圖片、圖像、音頻等。
②數(shù)據(jù)時(shí)效和應(yīng)用場景分
離線:主要用于用戶大批量數(shù)據(jù)的周期性遷移,對時(shí)效性要求不高,一般采用分布式批量數(shù)據(jù)同步的方式,通過連接讀取數(shù)據(jù),讀取數(shù)據(jù)過程中可以有全量、增量的方式,通過統(tǒng)一處理后寫入到目標(biāo)存儲(chǔ)。
實(shí)時(shí):主要面向低延時(shí)的數(shù)據(jù)應(yīng)用場景,一般通過增量日志或通知消息的方式實(shí)現(xiàn),業(yè)界有canal,flink等方式來實(shí)現(xiàn)。
③ETL和ELT
ETL(Extract-Transform-Load,抽取-轉(zhuǎn)換-存儲(chǔ)),抽取過程中加工,優(yōu)點(diǎn):節(jié)省存儲(chǔ),簡化后續(xù)處理? 缺點(diǎn):數(shù)據(jù)不全或丟失,處理效率低
ELT(Extract-Load-Transform,抽取-存儲(chǔ)-轉(zhuǎn)換),抽取完成后進(jìn)行加工,優(yōu)點(diǎn):數(shù)據(jù)齊全,利用大數(shù)據(jù)等分布式后期處理效果更高? 缺點(diǎn):存儲(chǔ)占用較大,無用數(shù)據(jù)太多可能會(huì)造成效率低
④常見數(shù)據(jù)匯聚工具
Canal:一種通過偽裝自己為Mysql等slave,通過監(jiān)控日志變動(dòng)的數(shù)據(jù)推動(dòng)工具。常作為mysql數(shù)據(jù)變動(dòng)的數(shù)據(jù)收集工具,但其不適合多消費(fèi)和數(shù)據(jù)分發(fā)場景。
Sqoop:通用的大數(shù)據(jù)解決方案,在結(jié)構(gòu)化數(shù)據(jù)和HDFS之間進(jìn)行數(shù)據(jù)遷移的工具,基于Hadoop的MapReduce實(shí)現(xiàn)。優(yōu)勢:特定場景,數(shù)據(jù)交換效率高。缺點(diǎn):定制程度高,不易操作,并且依賴MapReduce,功能擴(kuò)展性方面受到約束和限制。
DataX:阿里的一套插件式離線數(shù)據(jù)交換工具,它是基于進(jìn)程內(nèi)讀寫直連的方式。
二、數(shù)據(jù)交換產(chǎn)品前面介紹的工具一般都只能滿足一些單一的場景或者過程。為了滿足復(fù)雜的企業(yè)數(shù)據(jù)交換場景,我們需要一個(gè)完整的數(shù)據(jù)交換產(chǎn)品,包含數(shù)據(jù)源管理、離線數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理等等。
1、數(shù)據(jù)源管理數(shù)據(jù)源的管理主要是管理數(shù)據(jù)所用的存儲(chǔ),用于平臺(tái)在做數(shù)據(jù)交換時(shí),可以方便地對外部存儲(chǔ)進(jìn)行相應(yīng)的管理。
數(shù)據(jù)源的分類:
關(guān)系型數(shù)據(jù)庫:如Oracle、Mysql、SQL Server、Creenplum等
NoSQL存儲(chǔ):如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4j等
網(wǎng)絡(luò)及MQ:如Kafka、HTTP等
文件系統(tǒng):如HDFS、FTP、OSS、CSV、TXT、EXCEL等。
大數(shù)據(jù)相關(guān):如HIVE、Impala、Kudu、MaxCompute等
2、離線數(shù)據(jù)交換離線數(shù)據(jù)交換時(shí)針對數(shù)據(jù)時(shí)效要求低、吞吐量大的場景,解決大規(guī)模數(shù)據(jù)的批量遷移問題。
離線數(shù)據(jù)同步技術(shù)的亮點(diǎn):
①前置稽核
②數(shù)據(jù)轉(zhuǎn)換
③跨集群數(shù)據(jù)同步
④全量同步
⑤增量同步
3、實(shí)時(shí)數(shù)據(jù)交換實(shí)時(shí)數(shù)據(jù)交換主要負(fù)責(zé)把數(shù)據(jù)庫、日志爬蟲等數(shù)據(jù)實(shí)時(shí)接入Kafka、Hive、Oracle等存儲(chǔ)中。其兩個(gè)核心服務(wù)為:數(shù)據(jù)訂閱服務(wù)(Client Server)、數(shù)據(jù)消費(fèi)服務(wù)(Consumer Server)。
實(shí)時(shí)交換架構(gòu)圖示例:
三、數(shù)據(jù)存儲(chǔ)的選擇數(shù)據(jù)的存儲(chǔ)我們一般要考慮數(shù)據(jù)的規(guī)模、數(shù)據(jù)生產(chǎn)方式以及數(shù)據(jù)的應(yīng)用方式,通過方面綜合考慮。
1、在線與離線在線存儲(chǔ)是指存儲(chǔ)設(shè)備和所存儲(chǔ)的數(shù)據(jù)時(shí)刻保持“在線狀態(tài)”,可供用戶隨意讀取,滿足計(jì)算平臺(tái)對數(shù)據(jù)訪問的速度要求。在線存儲(chǔ)一般為磁盤、磁盤陣列、云存儲(chǔ)等。
離線存儲(chǔ)是為了對在線存儲(chǔ)的數(shù)據(jù)進(jìn)行備份,已防可能發(fā)生的數(shù)據(jù)災(zāi)難。離線存儲(chǔ)的數(shù)據(jù)不會(huì)經(jīng)常被調(diào)用。常見的典型產(chǎn)品是硬盤、磁帶和光盤等。
2、OLTP與OLAPOLTP和OLAP他們并不是競爭或互斥關(guān)系,而是相互協(xié)作,合作共贏。
OLTP | OLAP | |
用戶 | 面向操作人員,支持日常操作 | 面向決策人員,支持管理需求 |
功能 | 日常操作處理 | 面向分析 |
DB設(shè)計(jì) | 面向應(yīng)用,事務(wù)驅(qū)動(dòng) | 面向主題,分析驅(qū)動(dòng) |
數(shù)據(jù) | 當(dāng)前的、最新的、細(xì)節(jié)的、二維的、分立的 | 歷史的、聚集的、多維的、集成的、統(tǒng)一的 |
存取 | 可更新,讀/寫數(shù)十條記錄 | 不可更新的,但周期性刷新,讀上百萬條記錄 |
工作單位 | 簡單的事務(wù) | 復(fù)雜的查詢 |
DB大小 | 100MB到GB級 | 100GB到TB級別 |
1、分布式系統(tǒng)
分布式系統(tǒng)常見包括分布式文件系統(tǒng)(存儲(chǔ)系統(tǒng)需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲(chǔ)能力的支持)和分布式鍵值系統(tǒng)(用戶存儲(chǔ)關(guān)系簡單的半結(jié)構(gòu)化數(shù)據(jù))
2、NoSQL數(shù)據(jù)庫
NoSQL的優(yōu)勢,可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型很好支持web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等,典型的有:鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫等,如:HBASE、MongoDB等。
3、云數(shù)據(jù)庫
云數(shù)據(jù)庫是基于云計(jì)算技術(shù)的一種共享基礎(chǔ)架構(gòu)方法,是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫。
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧
文章標(biāo)題:大數(shù)據(jù)-創(chuàng)新互聯(lián)
本文鏈接:http://bm7419.com/article42/cdecec.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、小程序開發(fā)、定制開發(fā)、網(wǎng)站改版、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容