大數(shù)據(jù)-創(chuàng)新互聯(lián)

目錄

創(chuàng)新互聯(lián)于2013年開始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命,1280元雄縣做網(wǎng)站,已為上家服務(wù),為雄縣各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108

一、數(shù)據(jù)采集、匯聚的方法和工具

1、線上行為采集

2、線下行為采集

3、互聯(lián)網(wǎng)數(shù)據(jù)采集

4、內(nèi)部數(shù)據(jù)匯聚

二、數(shù)據(jù)交換產(chǎn)品

1、數(shù)據(jù)源管理

2、離線數(shù)據(jù)交換

3、實(shí)時(shí)數(shù)據(jù)交換

三、數(shù)據(jù)存儲(chǔ)的選擇

1、在線與離線

2、OLTP與OLAP

3、存儲(chǔ)技術(shù)


構(gòu)建企業(yè)級的數(shù)據(jù)中臺(tái)第一步就是要實(shí)現(xiàn)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)的互聯(lián)互通,從物理上打破數(shù)據(jù)孤島。主要通過數(shù)據(jù)匯聚和交換的能力來實(shí)現(xiàn)。在面對不同場景,根據(jù)數(shù)據(jù)類型、數(shù)據(jù)存儲(chǔ)要求等進(jìn)行不同方案的選擇。

一、數(shù)據(jù)采集、匯聚的方法和工具 1、線上行為采集

①客戶端埋點(diǎn)

全埋點(diǎn):在終端設(shè)備上記錄用戶所有的操作行為,一般在內(nèi)嵌SDK做一些初始化配置就可以實(shí)現(xiàn)全部收集行為的目的。也叫無痕埋點(diǎn)、無埋點(diǎn)等。優(yōu)點(diǎn):不用頻繁升級,可獲取全量數(shù)據(jù) 缺點(diǎn):存儲(chǔ)、傳輸成本高

可視化埋點(diǎn):在終端設(shè)備上記錄用戶的一部分操作,一般通過服務(wù)端配置的方式有選擇性的記錄與保存。優(yōu)點(diǎn):不用頻繁發(fā)布,成本比全埋點(diǎn)低,比較靈活;缺點(diǎn):可能未收集到想要的數(shù)據(jù),需要重新配置等

代碼埋點(diǎn):根據(jù)需求定制每次的手機(jī)內(nèi)容,需要對相應(yīng)終端模塊進(jìn)行升級。優(yōu)點(diǎn):靈活性強(qiáng)、可以單獨(dú)設(shè)計(jì)方案,對對存儲(chǔ)、帶寬等可以做較多優(yōu)化;缺點(diǎn):成本高,維護(hù)難度大,升級周期長。

②服務(wù)端埋點(diǎn)

服務(wù)端埋點(diǎn)常見的形態(tài)有HTTP服務(wù)器中的access_log,即所有web服務(wù)的日志數(shù)據(jù)。優(yōu)點(diǎn):降低客戶端的復(fù)雜度、提高信息安全;缺點(diǎn):無法采集客戶端不與服務(wù)端交互的信息。

2、線下行為采集

線下數(shù)據(jù)一般通過硬件采集,如Wifi探測針、攝像頭、傳感器等。

3、互聯(lián)網(wǎng)數(shù)據(jù)采集

這種數(shù)據(jù)采集方式一般采用網(wǎng)絡(luò)爬蟲,使用一種按照既定規(guī)則自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或腳本,常用來做網(wǎng)站的自動(dòng)化測試和行為模擬。常見的網(wǎng)絡(luò)爬蟲框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互聯(lián)網(wǎng)數(shù)據(jù)采集要遵守相應(yīng)的安全規(guī)范、協(xié)議等

4、內(nèi)部數(shù)據(jù)匯聚

①數(shù)據(jù)組織形式分類

結(jié)構(gòu)化數(shù)據(jù):規(guī)則、完整,能夠用二維表來表現(xiàn)的數(shù)據(jù),常見數(shù)據(jù)庫、excel中的數(shù)據(jù)。

半機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)規(guī)則、完整,但不能通過二維表來表現(xiàn)的數(shù)據(jù),比如JSON、XML等復(fù)雜結(jié)構(gòu)

非機(jī)構(gòu)化數(shù)據(jù):數(shù)據(jù)不規(guī)則、不完整,也不能通過二維表來表現(xiàn),需要復(fù)雜的邏輯才能從中提取,如圖片、圖像、音頻等。

②數(shù)據(jù)時(shí)效和應(yīng)用場景分

離線:主要用于用戶大批量數(shù)據(jù)的周期性遷移,對時(shí)效性要求不高,一般采用分布式批量數(shù)據(jù)同步的方式,通過連接讀取數(shù)據(jù),讀取數(shù)據(jù)過程中可以有全量、增量的方式,通過統(tǒng)一處理后寫入到目標(biāo)存儲(chǔ)。

實(shí)時(shí):主要面向低延時(shí)的數(shù)據(jù)應(yīng)用場景,一般通過增量日志或通知消息的方式實(shí)現(xiàn),業(yè)界有canal,flink等方式來實(shí)現(xiàn)。

③ETL和ELT

ETL(Extract-Transform-Load,抽取-轉(zhuǎn)換-存儲(chǔ)),抽取過程中加工,優(yōu)點(diǎn):節(jié)省存儲(chǔ),簡化后續(xù)處理? 缺點(diǎn):數(shù)據(jù)不全或丟失,處理效率低

ELT(Extract-Load-Transform,抽取-存儲(chǔ)-轉(zhuǎn)換),抽取完成后進(jìn)行加工,優(yōu)點(diǎn):數(shù)據(jù)齊全,利用大數(shù)據(jù)等分布式后期處理效果更高? 缺點(diǎn):存儲(chǔ)占用較大,無用數(shù)據(jù)太多可能會(huì)造成效率低

④常見數(shù)據(jù)匯聚工具

Canal:一種通過偽裝自己為Mysql等slave,通過監(jiān)控日志變動(dòng)的數(shù)據(jù)推動(dòng)工具。常作為mysql數(shù)據(jù)變動(dòng)的數(shù)據(jù)收集工具,但其不適合多消費(fèi)和數(shù)據(jù)分發(fā)場景。

Sqoop:通用的大數(shù)據(jù)解決方案,在結(jié)構(gòu)化數(shù)據(jù)和HDFS之間進(jìn)行數(shù)據(jù)遷移的工具,基于Hadoop的MapReduce實(shí)現(xiàn)。優(yōu)勢:特定場景,數(shù)據(jù)交換效率高。缺點(diǎn):定制程度高,不易操作,并且依賴MapReduce,功能擴(kuò)展性方面受到約束和限制。

DataX:阿里的一套插件式離線數(shù)據(jù)交換工具,它是基于進(jìn)程內(nèi)讀寫直連的方式。

二、數(shù)據(jù)交換產(chǎn)品

前面介紹的工具一般都只能滿足一些單一的場景或者過程。為了滿足復(fù)雜的企業(yè)數(shù)據(jù)交換場景,我們需要一個(gè)完整的數(shù)據(jù)交換產(chǎn)品,包含數(shù)據(jù)源管理、離線數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理等等。

1、數(shù)據(jù)源管理

數(shù)據(jù)源的管理主要是管理數(shù)據(jù)所用的存儲(chǔ),用于平臺(tái)在做數(shù)據(jù)交換時(shí),可以方便地對外部存儲(chǔ)進(jìn)行相應(yīng)的管理。

數(shù)據(jù)源的分類:

關(guān)系型數(shù)據(jù)庫:如Oracle、Mysql、SQL Server、Creenplum等

NoSQL存儲(chǔ):如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4j等

網(wǎng)絡(luò)及MQ:如Kafka、HTTP等

文件系統(tǒng):如HDFS、FTP、OSS、CSV、TXT、EXCEL等。

大數(shù)據(jù)相關(guān):如HIVE、Impala、Kudu、MaxCompute等

2、離線數(shù)據(jù)交換

離線數(shù)據(jù)交換時(shí)針對數(shù)據(jù)時(shí)效要求低、吞吐量大的場景,解決大規(guī)模數(shù)據(jù)的批量遷移問題。

離線數(shù)據(jù)同步技術(shù)的亮點(diǎn):

①前置稽核

②數(shù)據(jù)轉(zhuǎn)換

③跨集群數(shù)據(jù)同步

④全量同步

⑤增量同步

3、實(shí)時(shí)數(shù)據(jù)交換

實(shí)時(shí)數(shù)據(jù)交換主要負(fù)責(zé)把數(shù)據(jù)庫、日志爬蟲等數(shù)據(jù)實(shí)時(shí)接入Kafka、Hive、Oracle等存儲(chǔ)中。其兩個(gè)核心服務(wù)為:數(shù)據(jù)訂閱服務(wù)(Client Server)、數(shù)據(jù)消費(fèi)服務(wù)(Consumer Server)。

實(shí)時(shí)交換架構(gòu)圖示例:

三、數(shù)據(jù)存儲(chǔ)的選擇

數(shù)據(jù)的存儲(chǔ)我們一般要考慮數(shù)據(jù)的規(guī)模、數(shù)據(jù)生產(chǎn)方式以及數(shù)據(jù)的應(yīng)用方式,通過方面綜合考慮。

1、在線與離線

在線存儲(chǔ)是指存儲(chǔ)設(shè)備和所存儲(chǔ)的數(shù)據(jù)時(shí)刻保持“在線狀態(tài)”,可供用戶隨意讀取,滿足計(jì)算平臺(tái)對數(shù)據(jù)訪問的速度要求。在線存儲(chǔ)一般為磁盤、磁盤陣列、云存儲(chǔ)等。

離線存儲(chǔ)是為了對在線存儲(chǔ)的數(shù)據(jù)進(jìn)行備份,已防可能發(fā)生的數(shù)據(jù)災(zāi)難。離線存儲(chǔ)的數(shù)據(jù)不會(huì)經(jīng)常被調(diào)用。常見的典型產(chǎn)品是硬盤、磁帶和光盤等。

2、OLTP與OLAP

OLTP和OLAP他們并不是競爭或互斥關(guān)系,而是相互協(xié)作,合作共贏。

OLTP

OLAP

用戶

面向操作人員,支持日常操作

面向決策人員,支持管理需求

功能

日常操作處理

面向分析

DB設(shè)計(jì)

面向應(yīng)用,事務(wù)驅(qū)動(dòng)

面向主題,分析驅(qū)動(dòng)

數(shù)據(jù)

當(dāng)前的、最新的、細(xì)節(jié)的、二維的、分立的

歷史的、聚集的、多維的、集成的、統(tǒng)一的

存取

可更新,讀/寫數(shù)十條記錄

不可更新的,但周期性刷新,讀上百萬條記錄

工作單位

簡單的事務(wù)

復(fù)雜的查詢

DB大小

100MB到GB級

100GB到TB級別

3、存儲(chǔ)技術(shù)

1、分布式系統(tǒng)

分布式系統(tǒng)常見包括分布式文件系統(tǒng)(存儲(chǔ)系統(tǒng)需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲(chǔ)能力的支持)和分布式鍵值系統(tǒng)(用戶存儲(chǔ)關(guān)系簡單的半結(jié)構(gòu)化數(shù)據(jù))

2、NoSQL數(shù)據(jù)庫

NoSQL的優(yōu)勢,可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型很好支持web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等,典型的有:鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫等,如:HBASE、MongoDB等。

3、云數(shù)據(jù)庫

云數(shù)據(jù)庫是基于云計(jì)算技術(shù)的一種共享基礎(chǔ)架構(gòu)方法,是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧

文章標(biāo)題:大數(shù)據(jù)-創(chuàng)新互聯(lián)
本文鏈接:http://bm7419.com/article42/cdecec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、小程序開發(fā)、定制開發(fā)、網(wǎng)站改版關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)