什么是數(shù)據(jù)科學(xué)?將數(shù)據(jù)轉(zhuǎn)化為價(jià)值

2021-02-03    分類: 網(wǎng)站建設(shè)

數(shù)據(jù)科學(xué)是一種將業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換為資產(chǎn)的方法,可幫助組織提高收入、降低成本、抓住商機(jī)、改善客戶體驗(yàn)等。

數(shù)據(jù)科學(xué)定義

數(shù)據(jù)科學(xué)是一種使用從統(tǒng)計(jì)分析到機(jī)器學(xué)習(xí)的方法從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中收集洞察力的方法。對(duì)于大多數(shù)組織而言,數(shù)據(jù)科學(xué)被用于將數(shù)據(jù)轉(zhuǎn)化為價(jià)值,其形式是改善收入,降低成本,提高業(yè)務(wù)靈活性,改善客戶體驗(yàn),開(kāi)發(fā)新產(chǎn)品等。

RiskIQ公司首席數(shù)據(jù)科學(xué)家Adam Hunt說(shuō),“如果愿意,企業(yè)可以獲取的數(shù)據(jù)量是巨大的,但是如果沒(méi)有做任何事情,把它變成有趣的東西,它有什么用呢?數(shù)據(jù)科學(xué)是關(guān)于提供這些數(shù)據(jù)的目的。”

數(shù)據(jù)科學(xué)與分析

雖然數(shù)據(jù)分析是緊密相關(guān)的,但它是數(shù)據(jù)科學(xué)的一個(gè)組成部分,用于了解組織的數(shù)據(jù)是什么樣子的。數(shù)據(jù)科學(xué)利用分析的輸出來(lái)解決問(wèn)題。

Hunt說(shuō),“數(shù)據(jù)科學(xué)正在得出推動(dòng)數(shù)據(jù)向前發(fā)展的結(jié)論。如果不是采用數(shù)據(jù)解決問(wèn)題,如果只是在做調(diào)查,那就是分析。如果真的要用結(jié)果來(lái)解釋某些事情,就要從分析到科學(xué)。數(shù)據(jù)科學(xué)與實(shí)際解決問(wèn)題的關(guān)系比觀察、檢查、繪制數(shù)據(jù)更大。”

對(duì)于Looker公司首席數(shù)據(jù)科學(xué)家Hillary Green-Lerman來(lái)說(shuō),數(shù)據(jù)分析和數(shù)據(jù)科學(xué)之間的區(qū)別在于時(shí)間尺度。她表示,數(shù)據(jù)分析描述了當(dāng)前的現(xiàn)實(shí)狀況。數(shù)據(jù)科學(xué)使用該數(shù)據(jù)來(lái)預(yù)測(cè)或了解未來(lái)。

Green-Lerman說(shuō),“許多人認(rèn)為數(shù)據(jù)分析師只是初級(jí)數(shù)據(jù)科學(xué)家;有人希望在他們長(zhǎng)大后成為數(shù)據(jù)科學(xué)家。有時(shí)這是真的,但實(shí)際上我發(fā)現(xiàn)一個(gè)非常優(yōu)秀的分析師擁有與數(shù)據(jù)科學(xué)家不同的技能。”

數(shù)據(jù)科學(xué)與大數(shù)據(jù)

數(shù)據(jù)科學(xué)和大數(shù)據(jù)通常是一致的,但數(shù)據(jù)科學(xué)可以用來(lái)從各種規(guī)模的數(shù)據(jù)中提取價(jià)值,無(wú)論是結(jié)構(gòu)化的、非結(jié)構(gòu)化的還是半結(jié)構(gòu)化的。當(dāng)然,在許多情況下,大數(shù)據(jù)對(duì)數(shù)據(jù)科學(xué)家很有用,因?yàn)槠髽I(yè)擁有的數(shù)據(jù)越多,在給定模型中可以包含的參數(shù)就越多。

Hunt說(shuō),“有了大數(shù)據(jù),企業(yè)就不必受制于小數(shù)據(jù)的維數(shù)限制。大數(shù)據(jù)在某些方面確實(shí)有幫助,但更多并不總是更好。如果把股票市場(chǎng)放在合適的位置,它就不會(huì)起作用?!?/p>

數(shù)據(jù)科學(xué)的商業(yè)價(jià)值

數(shù)據(jù)科學(xué)的商業(yè)價(jià)值取決于組織需求。數(shù)據(jù)科學(xué)可以幫助組織構(gòu)建工具來(lái)預(yù)測(cè)硬件故障,允許組織執(zhí)行維護(hù),并防止意外停機(jī)。它可以幫助預(yù)測(cè)超市貨架上的內(nèi)容,或者根據(jù)產(chǎn)品的屬性預(yù)測(cè)產(chǎn)品的流行程度。

MapR科技公司首席應(yīng)用架構(gòu)師Ted Dunning說(shuō),“數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以擁有的大價(jià)值在于他們與業(yè)務(wù)團(tuán)隊(duì)融為一體。幾乎按照定義,尋求新奇的人員,真正創(chuàng)新的人員,將會(huì)發(fā)現(xiàn)價(jià)值或泄漏的價(jià)值,而不是人們所預(yù)期的。通常他們會(huì)讓業(yè)務(wù)人員帶來(lái)驚喜。價(jià)值并不是人們最初認(rèn)為的那樣?!?/p>

數(shù)據(jù)科學(xué)團(tuán)隊(duì)

數(shù)據(jù)科學(xué)通常是一門團(tuán)隊(duì)科學(xué)。數(shù)據(jù)科學(xué)家是大多數(shù)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的前瞻性核心,但從數(shù)據(jù)轉(zhuǎn)向分析,然后將分析轉(zhuǎn)化為生產(chǎn)價(jià)值需要一系列技能和角色。例如,數(shù)據(jù)分析師應(yīng)該在將數(shù)據(jù)呈現(xiàn)給團(tuán)隊(duì),并在維護(hù)數(shù)據(jù)模型之前對(duì)其進(jìn)行調(diào)查。數(shù)據(jù)工程師必須構(gòu)建數(shù)據(jù)管道以豐富數(shù)據(jù)集,并使數(shù)據(jù)可供公司其他人使用。

eBates公司分析副總裁Mark Stange-Tregear警告不要尋求數(shù)據(jù)科學(xué)“獨(dú)角獸”,也就是將非線性思維與高級(jí)數(shù)學(xué)和統(tǒng)計(jì)知識(shí)以及編碼能力相結(jié)合的人員。

Stange-Tregear解釋說(shuō),“我不認(rèn)為數(shù)據(jù)工程是關(guān)鍵的數(shù)據(jù)科學(xué)家特征,我希望有人真正添加其他內(nèi)容。如果我可以讓某人建立模型,能夠評(píng)估統(tǒng)計(jì)數(shù)據(jù),并將該模型的好處傳達(dá)給業(yè)務(wù)部門,那么我就可以雇傭足夠成熟的數(shù)據(jù)工程師來(lái)采用該模型并實(shí)現(xiàn)它?!?/p>

數(shù)據(jù)科學(xué)的嵌入式方法

一些組織選擇將數(shù)據(jù)科學(xué)家與其他功能混合在一起。例如,Mapr公司的Dunning建議遵循數(shù)據(jù)操作方法,將數(shù)據(jù)科學(xué)家嵌入到具有業(yè)務(wù)線職責(zé)的DevOps團(tuán)隊(duì)中。這些數(shù)據(jù)運(yùn)營(yíng)團(tuán)隊(duì)往往是跨職能的和技能的,如運(yùn)營(yíng)、軟件工程、架構(gòu)和產(chǎn)品管理,并且可以從頭到尾協(xié)調(diào)數(shù)據(jù)、工具、代碼和環(huán)境。數(shù)據(jù)運(yùn)營(yíng)團(tuán)隊(duì)傾向于將分析管道視為類似于生產(chǎn)線。

Dunning說(shuō),“孤立的數(shù)據(jù)科學(xué)團(tuán)隊(duì)可能希望部署最復(fù)雜的模型,嵌入式數(shù)據(jù)科學(xué)家將尋找可維護(hù)的廉價(jià)勝利。他們對(duì)于選擇的解決方案是務(wù)實(shí)的。”

數(shù)據(jù)科學(xué)目標(biāo)和可交付成果

數(shù)據(jù)科學(xué)的目標(biāo)是構(gòu)建從數(shù)據(jù)中提取以業(yè)務(wù)為中心的見(jiàn)解的方法。這需要理解價(jià)值和信息在企業(yè)中是如何流動(dòng)的,并能夠利用這種理解來(lái)識(shí)別業(yè)務(wù)機(jī)會(huì)。雖然這可能涉及一次性項(xiàng)目,但更典型的是,數(shù)據(jù)科學(xué)團(tuán)隊(duì)尋求識(shí)別關(guān)鍵數(shù)據(jù)資產(chǎn),這些資產(chǎn)可以轉(zhuǎn)化為數(shù)據(jù)管道,為可維護(hù)工具和解決方案提供支持。例如,銀行使用的信用卡欺詐監(jiān)控解決方案,或用于優(yōu)化風(fēng)電場(chǎng)中風(fēng)力發(fā)電機(jī)布置的工具。

逐漸地,傳達(dá)團(tuán)隊(duì)所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt說(shuō),“確保他們將結(jié)果傳達(dá)給公司的其他人是非常重要的,當(dāng)數(shù)據(jù)科學(xué)團(tuán)隊(duì)長(zhǎng)時(shí)間陷入困境時(shí),它開(kāi)始陷入困境。產(chǎn)品經(jīng)理認(rèn)為工作是理所當(dāng)然的,除非我們一直在談?wù)摵完P(guān)注它?!?/p>

數(shù)據(jù)科學(xué)過(guò)程和方法

生產(chǎn)工程團(tuán)隊(duì)在Sprint周期中工作,并且有計(jì)劃的時(shí)間表。Hunt表示,數(shù)據(jù)科學(xué)團(tuán)隊(duì)通常很難做到這一點(diǎn),因?yàn)榭梢蕴崆盎ê芏鄷r(shí)間來(lái)確定一個(gè)項(xiàng)目是否可行。

Hunt說(shuō),“很多時(shí)候,第一周甚至第一個(gè)月都是研究、收集、清理數(shù)據(jù)。我們能回答這個(gè)問(wèn)題嗎?我們能有效地做到嗎?我們花費(fèi)了大量的時(shí)間進(jìn)行設(shè)計(jì)和調(diào)查,遠(yuǎn)遠(yuǎn)超過(guò)了標(biāo)準(zhǔn)工程團(tuán)隊(duì)的表現(xiàn)。”

對(duì)于Hunt來(lái)說(shuō),數(shù)據(jù)科學(xué)應(yīng)該遵循科學(xué)方法,盡管他指出并非總是如此,甚至不可行。

Hunt說(shuō),“企業(yè)試圖從數(shù)據(jù)中提取一些洞察力。為了反復(fù)和自信地做到這一點(diǎn),必須使用科學(xué)方法準(zhǔn)確地證明其假設(shè)。但我不認(rèn)為許多數(shù)據(jù)科學(xué)家真正使用任何科學(xué)?!?/p>

Hunt說(shuō),真正的科學(xué)需要時(shí)間。企業(yè)花費(fèi)時(shí)間確認(rèn)其假設(shè),然后花費(fèi)很多時(shí)間試圖反駁自己。

Hunt說(shuō),“通過(guò)數(shù)據(jù)科學(xué),企業(yè)需要深入研究數(shù)據(jù)來(lái)驗(yàn)證這些假設(shè)。我們?cè)噲D回答的很多問(wèn)題都是短暫的。例如,在安全方面試圖找到解決威脅的辦法?!?/p>

他表示,因此,數(shù)據(jù)科學(xué)通常意味著采用“足夠好”的答案,而不是好答案。然而,危險(xiǎn)是結(jié)果可能成為確認(rèn)偏見(jiàn)或過(guò)度擬合的犧牲品。

他說(shuō),“如果這不是真正的科學(xué),也就是說(shuō)企業(yè)用科學(xué)的方法來(lái)證實(shí)一個(gè)假設(shè),那么所做的就是向一些算法采用數(shù)據(jù)來(lái)證實(shí)自己的假設(shè)?!?/p>

數(shù)據(jù)科學(xué)工具

數(shù)據(jù)科學(xué)團(tuán)隊(duì)使用各種工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等開(kāi)源項(xiàng)目。這些工具用于各種與數(shù)據(jù)相關(guān)的任務(wù),從提取和清理數(shù)據(jù)到通過(guò)統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行算法分析。

通過(guò)統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)進(jìn)行算法分析。

“企業(yè)需要良好的可視化工具。在這一點(diǎn)上,編程工具Python是最受歡迎的。企業(yè)需要能夠構(gòu)建有趣模型的工具?!盡apR公司Dunning說(shuō)。

Dunning說(shuō),當(dāng)MapR公司調(diào)查其客戶數(shù)據(jù)團(tuán)隊(duì)時(shí),團(tuán)隊(duì)使用的最少數(shù)量的建模工具是5個(gè),而且甚至沒(méi)有進(jìn)入可視化工具。

“事情變得越來(lái)越多,因?yàn)槿藗兏討岩?。這種其他建模技術(shù)會(huì)產(chǎn)生更好的模型嗎?”Dunning說(shuō)。

數(shù)據(jù)科學(xué)家的薪酬

根據(jù)PayScale公司的數(shù)據(jù),以下是一些與數(shù)據(jù)科學(xué)相關(guān)的最受歡迎的職位和每個(gè)職位的平均薪酬:

  • 分析經(jīng)理:67,000美元至126,000美元
  • 助理數(shù)據(jù)科學(xué)家:58,000美元至101,000美元
  • 商業(yè)智能分析師:49,000美元至95,000美元
  • 數(shù)據(jù)分析師:42,000美元至83,000美元
  • 數(shù)據(jù)架構(gòu)師:77,000美元至153,000美元
  • 數(shù)據(jù)工程師:64,000美元至132,000美元
  • 數(shù)據(jù)科學(xué)家:65,000美元至134,000美元
  • IT數(shù)據(jù)科學(xué)家:61,000美元至135,000美元
  • 首席數(shù)據(jù)科學(xué)家:95,000美元至172,000美元
  • 研究分析師:4萬(wàn)至7萬(wàn)美元
  • 研究科學(xué)家:48,000美元至118,000美元
  • 高級(jí)數(shù)據(jù)科學(xué)家:93,000美元至160,000美元
  • 統(tǒng)計(jì)學(xué)家:50,000美元至108,000美元

數(shù)據(jù)科學(xué)技能

雖然數(shù)據(jù)科學(xué)學(xué)位課程的數(shù)量正在迅速增加,但它們并不一定是組織在尋找數(shù)據(jù)科學(xué)家時(shí)所尋求的。eBates公司Stange-Tregear表示,他尋找具有統(tǒng)計(jì)背景的候選人,因此他們知道是否在看實(shí)際結(jié)果,將結(jié)果置于場(chǎng)景中的領(lǐng)域知識(shí);以及使他們能夠向業(yè)務(wù)用戶傳達(dá)結(jié)果的溝通技巧。

“如果我有一位可以完成所有這些工作的數(shù)據(jù)科學(xué)家,那么我會(huì)擔(dān)心通過(guò)數(shù)據(jù)工程團(tuán)隊(duì)實(shí)現(xiàn)這一點(diǎn)?!彼f(shuō)。

RiskIQ公司的Hunt表示,對(duì)擁有博士學(xué)位的應(yīng)聘者很感興趣。Hunt說(shuō),“我偏向招聘于擁有博士學(xué)位的人,但我不會(huì)放棄那些具有豐富經(jīng)驗(yàn)的人才。博士能夠?qū)σ粋€(gè)主題進(jìn)行非常深入的研究,并且能夠?qū)⑦@些信息傳播給其他人。但是,擁有扎實(shí)的背景或個(gè)人項(xiàng)目是非常有趣的?!?/p>

Hunt說(shuō),他特別尋找物理、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)甚至社會(huì)科學(xué)的博士學(xué)位的人才。他不會(huì)對(duì)擁有數(shù)據(jù)科學(xué)或分析學(xué)位的應(yīng)聘者另眼相看,但他確實(shí)對(duì)招聘這些人有所保留。他說(shuō),“我的個(gè)人經(jīng)歷是,我發(fā)現(xiàn)它們非常有用,但他們過(guò)于關(guān)注模型的操作,而不是思維方式?!?/p>

MapR公司的Dunning更關(guān)心申請(qǐng)人的個(gè)人能力,而不是展示新事物的能力。他說(shuō),“我在招聘數(shù)據(jù)科學(xué)家時(shí)首先想到的內(nèi)容是:受訪者是否能教會(huì)我一些東西?我不想找到指導(dǎo)我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教會(huì)團(tuán)隊(duì)的人才?!?/p>

Dunning指出,一些優(yōu)秀的數(shù)據(jù)科學(xué)家或數(shù)據(jù)科學(xué)領(lǐng)域的領(lǐng)導(dǎo)者都具有非傳統(tǒng)背景,并指出,他與之合作過(guò)的最好的人員包括曾經(jīng)做了6年園丁的人,具有美術(shù)背景的人,有的甚至擁有法國(guó)文學(xué)學(xué)位,還有一位沒(méi)有接受計(jì)算機(jī)培訓(xùn)的新聞系學(xué)生。

Dunning說(shuō):“想用數(shù)據(jù)感知來(lái)測(cè)試人們,而不是用公式。希望有能力看到事物并理解它們?!?/p>

數(shù)據(jù)科學(xué)培訓(xùn)

鑒于目前缺乏數(shù)據(jù)科學(xué)人才,許多組織正在制定計(jì)劃,以培養(yǎng)內(nèi)部數(shù)據(jù)科學(xué)人才。而培訓(xùn)是另一條快速增長(zhǎng)的途徑,培訓(xùn)工作人員承擔(dān)數(shù)據(jù)科學(xué)家的角色。

數(shù)據(jù)科學(xué)學(xué)位

根據(jù)美國(guó)新聞和世界報(bào)道,這些是數(shù)據(jù)科學(xué)領(lǐng)域的頂級(jí)研究生學(xué)位課程:

  • 統(tǒng)計(jì)學(xué)理學(xué)碩士:斯坦福大學(xué)的數(shù)據(jù)科學(xué)
  • 信息與數(shù)據(jù)科學(xué)碩士:伯克利信息學(xué)院
  • 數(shù)據(jù)科學(xué)理學(xué)碩士:哈佛大學(xué)約翰保爾森工程與應(yīng)用科學(xué)學(xué)院
  • 分析科學(xué)碩士:芝加哥大學(xué)格雷厄姆學(xué)院
  • 計(jì)算數(shù)據(jù)科學(xué)碩士:卡內(nèi)基梅隆大學(xué)
  • 數(shù)據(jù)科學(xué)理學(xué)碩士:華盛頓大學(xué)
  • 跨學(xué)科數(shù)據(jù)科學(xué)碩士:杜克大學(xué)
  • 應(yīng)用數(shù)據(jù)科學(xué)碩士:密歇根大學(xué)信息學(xué)院

數(shù)據(jù)科學(xué)認(rèn)證

組織需要在數(shù)據(jù)分析技術(shù)方面有專長(zhǎng)的數(shù)據(jù)科學(xué)家和分析師。他們還需要大數(shù)據(jù)架構(gòu)師將需求轉(zhuǎn)化為系統(tǒng),需要數(shù)據(jù)工程師構(gòu)建和維護(hù)數(shù)據(jù)管道,需要了解Hadoop集群和其他技術(shù)的開(kāi)發(fā)人員,還需要系統(tǒng)管理員和管理人員將一切聯(lián)系在一起。認(rèn)證是候選人展示他們擁有正確技能的一種方式。

一些頂級(jí)大數(shù)據(jù)和數(shù)據(jù)分析認(rèn)證包括:

  • 數(shù)據(jù)科學(xué)專業(yè)成就認(rèn)證
  • 認(rèn)證分析專業(yè)人員
  • Cloudera認(rèn)證助理(CCA)數(shù)據(jù)分析師
  • EMC經(jīng)驗(yàn)證的專業(yè)數(shù)據(jù)科學(xué)家協(xié)會(huì)(EMCDSA)
  • MapR認(rèn)證數(shù)據(jù)分析師
  • Microsoft認(rèn)證解決方案專家(MCSE):數(shù)據(jù)管理和分析
  • 使用SAS 9的SAS認(rèn)證數(shù)據(jù)科學(xué)家

分享文章:什么是數(shù)據(jù)科學(xué)?將數(shù)據(jù)轉(zhuǎn)化為價(jià)值
文章分享:http://www.bm7419.com/news/98854.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)定制開(kāi)發(fā)、用戶體驗(yàn)、定制網(wǎng)站營(yíng)銷型網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

微信小程序開(kāi)發(fā)