大數(shù)據(jù)技術(shù)真的很牛嗎?大數(shù)據(jù)到底值錢在什么地方?

2021-02-01    分類: 網(wǎng)站建設(shè)

大數(shù)據(jù)聽著很牛,實(shí)際上也很牛嗎?

就是收集很多用戶數(shù)據(jù),用機(jī)器進(jìn)行處理嘛,干嘛整天吵得這么high。傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時(shí)代特別是移動(dòng)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧。

真的是這樣嗎?今天創(chuàng)新互聯(lián)來看看兩位業(yè)內(nèi)人士的深入分析。


01

大數(shù)據(jù)的商業(yè)價(jià)值


大數(shù)據(jù)是近年來新出熱門詞匯,人們對于大數(shù)據(jù)的理解還不夠全面,甚至存在一些誤區(qū),認(rèn)為數(shù)據(jù)量大就是大數(shù)據(jù),或者認(rèn)為里面數(shù)字大也是大數(shù)據(jù),實(shí)際上這些只屬于統(tǒng)計(jì)的范疇,和大數(shù)據(jù)是沒有關(guān)系的。

所謂大數(shù)據(jù),其實(shí)是有兩部分組成的。一部分是海量運(yùn)算存儲(chǔ)能力,一部分是數(shù)據(jù)建模算法。

認(rèn)為大數(shù)據(jù)是更快更智能的處理技術(shù)的人,只是認(rèn)識(shí)到了大數(shù)據(jù)海量運(yùn)算儲(chǔ)存能力,而這部分只是量變,卻沒有認(rèn)識(shí)到質(zhì)變。

如果針對消費(fèi)者市場,大數(shù)據(jù)的目標(biāo)是對每個(gè)消費(fèi)者有清楚的認(rèn)知和跟蹤。

你的年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說,你此刻在哪里、喜歡什么顏色、喜歡什么風(fēng)格、想要什么東西,都能夠收集分析出來。之后便會(huì)在你正在看的視頻網(wǎng)站、正刷的APP,所有這些界面上呈現(xiàn)信息,引導(dǎo)你關(guān)注。

隨著這項(xiàng)技術(shù)的進(jìn)步,甚至可以提前預(yù)知你想要購買的東西,提前一步給你送達(dá)。可以想象一下,你想買一個(gè)東西下單二十分鐘就到你家門口了,因?yàn)樵缇皖A(yù)測到你什么時(shí)候想要什么了,所以幾天前預(yù)測到就提前發(fā)貨到你小區(qū)的提貨點(diǎn)了。

這樣的精準(zhǔn)的服務(wù),以后對消費(fèi)者而言當(dāng)然是習(xí)慣了就不再記得它有多偉大。就像過去的工業(yè)革命,只有經(jīng)歷那個(gè)時(shí)代的當(dāng)事人那個(gè)時(shí)代的締造者們才會(huì)對那些創(chuàng)造充滿激情,而我們對隨手可得的電和各種電器還會(huì)有什么驚喜嗎?

傳統(tǒng)的數(shù)據(jù)行業(yè),一沒有足夠強(qiáng)的數(shù)據(jù)獲取能力,二沒有足夠強(qiáng)的數(shù)據(jù)加工能力。包括以前靠預(yù)測總統(tǒng)大選起家的那家公司,他們的采樣是局限的,比如寄調(diào)查問卷,調(diào)查問卷這種采樣是難以重現(xiàn)真實(shí)的,且基于傳統(tǒng)的小樣本統(tǒng)計(jì)方法。另外,數(shù)據(jù)處理能力也很有限。

與之相反,大數(shù)據(jù)的采樣是無法說謊的,你點(diǎn)擊、瀏覽、地理信息等等這一切行為都在眼皮底下發(fā)生。這是大數(shù)據(jù)的第一個(gè)“大”,維度大。

同時(shí),數(shù)據(jù)采樣是覆蓋幾億人口全天候的。這是大數(shù)據(jù)的第二個(gè)“大”,數(shù)量大。相對傳統(tǒng)的抽樣小樣本集而言,大數(shù)據(jù)可以稱之為全樣本。正是這兩個(gè)“大”,就能夠帶來數(shù)據(jù)的質(zhì)變。

再看數(shù)據(jù)加工。傳統(tǒng)的加工,恐怕多數(shù)人靠Excel吧!我們采一天的數(shù)據(jù)就能撐爆幾萬臺(tái)你們家里的電腦硬盤。至于計(jì)算,可以想像一下,對這個(gè)數(shù)量級的數(shù)據(jù)矩陣做個(gè)最簡單的矩陣分解要怎么實(shí)現(xiàn)。這是機(jī)器的能力。

人的方面,現(xiàn)在很多傳統(tǒng)的搞這些的統(tǒng)計(jì)方向的人經(jīng)常會(huì)說,“唉,現(xiàn)在都搞算法去了”。沒錯(cuò),算法就是人與機(jī)器協(xié)作的溝通方式,只有和機(jī)器深度合作,才能得到更高的生產(chǎn)力。

這一切,在消費(fèi)者的眼里,也許也不是那么的了不起,不就是一下單馬上就到嘛,不就是各種方便嘛,怎樣還不是一樣的活。但是這對商業(yè)而言卻是驚天動(dòng)地的。

過去你賣衣服的,你的周轉(zhuǎn)庫存和滯銷庫存恐怕吃掉了你一半的利潤都不止;一旦有了大數(shù)據(jù)支撐,你的庫存幾乎可以忽略了。過去你搞設(shè)計(jì)的,你耗盡心力設(shè)計(jì)出來的作品很可能在市場上得不到認(rèn)可;有了這個(gè)精準(zhǔn)大殺器,消費(fèi)者的數(shù)據(jù)會(huì)告訴你他們要什么,你設(shè)計(jì)師錦上添花就好,真正的設(shè)計(jì)者其實(shí)是消費(fèi)者自己。

過去你搞營銷的,投入一大筆錢搞個(gè)營銷方案,結(jié)果收效甚微;一旦有了這個(gè)精準(zhǔn)大殺器,營銷的投入風(fēng)險(xiǎn)就低多了。

大數(shù)據(jù)帶來的精準(zhǔn)對商業(yè)的影響是方方面面的。這是新時(shí)代對舊時(shí)代的淘汰。除了商業(yè),還有大量別的用處,都將深刻地改變世界。比如個(gè)人征信、醫(yī)療行業(yè)、能源行業(yè)、公路交通等等。太多太多,這些都會(huì)深刻地改變世界的運(yùn)作方式


02

技術(shù)角度分析大數(shù)據(jù)


我有20個(gè)整數(shù),一把全裝進(jìn)內(nèi)存,調(diào)用個(gè)sort,完事了。

我有2GB那么多的整數(shù),一把全裝進(jìn)內(nèi)存……恩恩,如果機(jī)器不那么破,勉強(qiáng)也完事吧。

我有20GB那么多的整數(shù),對,往你家PC里多插幾條8GB的內(nèi)存條試試?

那我現(xiàn)在有200GB那么多的整數(shù)……看你丫的怎么裝內(nèi)存,哈哈哈哈哈哈!

嚇尿了吧!?寫外排序?你寫?。t's ONLY the beginning!很多人可是連內(nèi)存里的快排都寫不出的哦~

200GB算個(gè)啥大數(shù)據(jù)啊,蒼老師的合集都不止咳咳……

OK,顯然我們已經(jīng)意識(shí)到1臺(tái)機(jī)器裝不下了。咋辦?多找?guī)着_(tái)機(jī)器唄。多找?guī)着_(tái)機(jī)器意味著啥?。糠植际接?jì)算懂不懂,連分布式都不懂說個(gè)毛大數(shù)據(jù)?。。?!

好,現(xiàn)在有200GB的整數(shù),排個(gè)序吧……呃,給你10臺(tái)機(jī)器吧。

1)這200GB的整數(shù),如何分配?

2)這10臺(tái)機(jī)器之間如何通訊?沒錯(cuò),我不止坑了你去寫外排序,我還得坑你去玩網(wǎng)絡(luò)編程。

3)假設(shè)每一臺(tái)機(jī)器上的數(shù)據(jù)都已經(jīng)完全排好,如何多快好省地把各自排序好的結(jié)果merge在一起?

4)如何設(shè)計(jì)有效的merge邏輯減少10臺(tái)機(jī)器之間的網(wǎng)絡(luò)IO。

5)別以為10臺(tái)機(jī)器不需要維護(hù),萬一在排序的時(shí)候其中一臺(tái)機(jī)器掛了,怎么辦?具體包括但不限于:他在掛之前有響應(yīng)其他機(jī)器發(fā)給他的request嗎?他在掛之前自身的任務(wù)完成了多少了?假設(shè)這臺(tái)機(jī)器在掛的時(shí)候正在跟隔壁的機(jī)器互相傳輸數(shù)據(jù)腫么辦?

6)誰去監(jiān)聽這10臺(tái)機(jī)器的健康?或者是其他機(jī)器怎么知道某臺(tái)機(jī)器掛了?如果是連接超時(shí),怎么知道是網(wǎng)絡(luò)阻塞還是目標(biāo)機(jī)真的掛了?

7)如果某臺(tái)機(jī)器真的掛了無法恢復(fù),又或者由于隔壁的黃大牛要打魔獸了劫走了一臺(tái)(集群升級,集群中的節(jié)點(diǎn)被臨時(shí)撤走的事常有哦),如何把那臺(tái)機(jī)器上那20GB的數(shù)據(jù)分給其余的9臺(tái)?


如果數(shù)據(jù)不是200GB,而是2TB,2PB……

1)這么大的數(shù)據(jù),這么大的集群,同一時(shí)間掛掉的機(jī)器數(shù)量可能會(huì)很多。如果這個(gè)集群用來做存儲(chǔ)(例如百度云),怎么保證用戶的數(shù)據(jù)不丟失?

2)如果這個(gè)集群用來做離線計(jì)算,怎么設(shè)計(jì)調(diào)度程序提高每臺(tái)機(jī)器的資源利用率,減少集群內(nèi)的網(wǎng)絡(luò)IO和盡可能地提高每臺(tái)機(jī)器的響應(yīng)速度?

3)我希望集群是可擴(kuò)展的,最好架構(gòu)能支持我只要簡單地增加機(jī)器數(shù)目就能擴(kuò)充集群的計(jì)算和存儲(chǔ)能力,這個(gè)架構(gòu)要怎么設(shè)計(jì)?

建議題主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等內(nèi)容。

“傳統(tǒng)行業(yè)的數(shù)據(jù),收集和分析慢,互聯(lián)網(wǎng)時(shí)代特別是移動(dòng)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)收集和分析都變得更快更智能,僅此而已吧?!?/p>

只所以題主會(huì)這么說,是因?yàn)轭}主作為局外人,能看到的就只有這些表面的最直觀的現(xiàn)象。一句簡單的“數(shù)據(jù)分析變得智能了更快了”的背后,實(shí)際上是無數(shù)人付出的勤奮、創(chuàng)造力、勇敢還有艱辛!

馬云爸爸說,未來是DT時(shí)代,大數(shù)據(jù)是最重要的資產(chǎn)。

未來三至五年,中國需要180萬數(shù)據(jù)人才,但目前只有約30萬人。到2020年,企業(yè)基于大數(shù)據(jù)計(jì)算分析存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,我國需要更多的數(shù)據(jù)人才。

本文標(biāo)題:大數(shù)據(jù)技術(shù)真的很牛嗎?大數(shù)據(jù)到底值錢在什么地方?
標(biāo)題鏈接:http://www.bm7419.com/news1/98651.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、域名注冊微信公眾號、軟件開發(fā)、關(guān)鍵詞優(yōu)化品牌網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作