數(shù)據(jù)分析_DIKW與數(shù)據(jù)工程-創(chuàng)新互聯(lián)

DIKW體系

DIKW體系是關(guān)于數(shù)據(jù)、信息、知識(shí)及智慧的體系,可以追溯至托馬斯·斯特爾那斯·艾略特所寫的詩--《巖石》。在首段,他寫道:“我們?cè)谀睦飦G失了知識(shí)中的智慧?又在哪里丟失了信息中的知識(shí)?”(Where is the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?)。

創(chuàng)新互聯(lián)"三網(wǎng)合一"的企業(yè)建站思路。企業(yè)可建設(shè)擁有電腦版、微信版、手機(jī)版的企業(yè)網(wǎng)站。實(shí)現(xiàn)跨屏營銷,產(chǎn)品發(fā)布一步更新,電腦網(wǎng)絡(luò)+移動(dòng)網(wǎng)絡(luò)一網(wǎng)打盡,滿足企業(yè)的營銷需求!創(chuàng)新互聯(lián)具備承接各種類型的成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)項(xiàng)目的能力。經(jīng)過十載的努力的開拓,為不同行業(yè)的企事業(yè)單位提供了優(yōu)質(zhì)的服務(wù),并獲得了客戶的一致好評(píng)。

1982年12月,美國教育家哈藍(lán)·克利夫蘭引用艾略特的這些詩句在其出版的《未來主義者》一書提出了“信息即資源”(Information as a Resource)的主張。

其后,教育家米蘭·瑟蘭尼、管理思想家羅素·艾可夫進(jìn)一步對(duì)此理論發(fā)揚(yáng)光大,前者在1987年撰寫了《管理支援系統(tǒng):邁向整合知識(shí)管理》(Management Support Systems: Towards Integrated Knowledge Management ),后者在1989年撰寫了《從數(shù)據(jù)到智慧》(“From Data to Wisdom”,Human Systems Management)。

數(shù)據(jù)分析_DIKW與數(shù)據(jù)工程

數(shù)據(jù)工程領(lǐng)域中的DIKW體系

D:Data(數(shù)據(jù)),是 DIKW 體系中最低級(jí)的材料,一般指原始數(shù)據(jù),包含(或不包含)有用的信息。

I:Information(信息),作為一個(gè)概念,信息有著多種多樣的含義。在數(shù)據(jù)工程里,表示由數(shù)據(jù)工程師(使用相關(guān)工具)或者 數(shù)據(jù)科學(xué)家(使用數(shù)學(xué)方法),按照某種特定規(guī)則,對(duì)原始數(shù)據(jù)進(jìn)行整合提取后,找出來的更高層數(shù)據(jù)(具體數(shù)據(jù))。

K:Knowledge(知識(shí)),并且這些認(rèn)識(shí)擁有潛在的能力為特定目的而使用。在數(shù)據(jù)工程里,表示對(duì)信息進(jìn)行針對(duì)性的實(shí)用化,讓提取的信息可以用于商業(yè)應(yīng)用或?qū)W術(shù)研究。

W:Wisdom(智慧),表示對(duì)知識(shí)進(jìn)行獨(dú)立的思考分析,得出的某些結(jié)論。在數(shù)據(jù)工程里,工程師和科學(xué)家做了大量的工作用計(jì)算機(jī)程序盡可能多地提取了價(jià)值(I/K),然而真正要從數(shù)據(jù)中洞察出更高的價(jià)值,甚至能夠?qū)ξ磥淼那闆r進(jìn)行預(yù)測(cè),則需要數(shù)據(jù)分析師。

數(shù)據(jù)工程 領(lǐng)域職業(yè)劃分:

數(shù)據(jù)工程是一整套對(duì)數(shù)據(jù)(D)進(jìn)行采集、處理、提取價(jià)值(變?yōu)?I 或 K)的過程。

首先介紹一下相關(guān)的幾種角色: Data Engineer(數(shù)據(jù)工程師), Data Scientist(數(shù)據(jù)科學(xué)家), Data Analyst(數(shù)據(jù)分析師)。 這三個(gè)角色任務(wù)重疊性高,要求合作密切,但各負(fù)責(zé)的領(lǐng)域稍有不同。大部分公司里的這些角色都會(huì)根據(jù)每個(gè)人本身的技能長短而身兼數(shù)職, 所以有時(shí)候比較難以區(qū)分:

  • Data Engineer 數(shù)據(jù)工程師: 分析數(shù)據(jù)少不了需要運(yùn)用計(jì)算機(jī)和各種工具自動(dòng)化數(shù)據(jù)處理的過程, 包括數(shù)據(jù)格式轉(zhuǎn)換, 儲(chǔ)存, 更新, 查詢。 數(shù)據(jù)工程師的工作就是開發(fā)工具完成自動(dòng)化的過程, 屬于 基礎(chǔ)設(shè)施/工具(Infrastructure/Tools)層。

但是這個(gè)角色出現(xiàn)的頻率不多 ,因?yàn)橛鞋F(xiàn)成的MySQL, Oracle等數(shù)據(jù)庫技術(shù), 很多大公司只需要DBA就足夠了。而 Hadoop, MongoDB 等 NoSQL 技術(shù)的開源, 更是使在大數(shù)據(jù)的場(chǎng)景下都沒有太多 數(shù)據(jù)工程師 的事,一般都是交給 數(shù)據(jù)科學(xué)家 。

  • Data Scientist 數(shù)據(jù)科學(xué)家: 數(shù)據(jù)科學(xué)家是與數(shù)學(xué)相結(jié)合的中間角色, 需要用數(shù)學(xué)方法處理原始數(shù)據(jù)找出肉眼看不到的更高層數(shù)據(jù), 一般是運(yùn)用 統(tǒng)計(jì)機(jī)器學(xué)習(xí)(Statistical Machine Learning)或者 深度學(xué)習(xí)(Deep Learning)。

有人稱 Data Scientist 為 編程統(tǒng)計(jì)學(xué)家(Programming Statistician),因?yàn)樗麄冃枰泻芎玫慕y(tǒng)計(jì)學(xué)基礎(chǔ),但也需要參與程序的開發(fā)(基于 Infrastructure 之上),而現(xiàn)在很多很多的數(shù)據(jù)科學(xué)家 職位都要求身兼數(shù)據(jù)工程師數(shù)據(jù)科學(xué)家 是把 D 轉(zhuǎn)為 I 或 K 的主力軍。

  • Data Analyst 數(shù)據(jù)分析師: 數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家做了大量的工作,用計(jì)算機(jī)程序盡可能多地提取了價(jià)值(I/K),然而真正要從數(shù)據(jù)中洞察出更高的價(jià)值, 則需要依靠豐富的行業(yè)經(jīng)驗(yàn)和洞察力, 這些都需要人力的干預(yù)。
Data Analyst 需要的是對(duì)所在業(yè)務(wù)有深刻了解, 能熟練運(yùn)用手上的工具(無論是 Excel, SPSS也好, Python/R也好,工程師給你開發(fā)的工具也好,必要時(shí)還要能自己充當(dāng)工程師和科學(xué)家,力盡所能得到自己需要的工具),有針對(duì)性地對(duì)數(shù)據(jù)作分析,并且需要把發(fā)現(xiàn)的成果向其他職能部門呈現(xiàn)出來,最終變?yōu)樾袆?dòng),這就是把數(shù)據(jù)最終得出 Wisdom。

什么是數(shù)據(jù)分析:

百度百科:數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。

數(shù)據(jù)分析的過程:

數(shù)據(jù)收集 -》 數(shù)據(jù)處理 -》 數(shù)據(jù)分析 -》數(shù)據(jù)展現(xiàn)

  1. 數(shù)據(jù)收集:本地?cái)?shù)據(jù)或者網(wǎng)絡(luò)數(shù)據(jù)的采集與操作.
  2. 數(shù)據(jù)處理:數(shù)據(jù)的規(guī)整,按照某種格式進(jìn)行整合存儲(chǔ)。
  3. 數(shù)據(jù)分析:數(shù)據(jù)的科學(xué)計(jì)算,使用相關(guān)數(shù)據(jù)工具進(jìn)行分析。
  4. 數(shù)據(jù)展現(xiàn):數(shù)據(jù)可視化,使用相關(guān)工具對(duì)分析出的數(shù)據(jù)進(jìn)行展示。

數(shù)據(jù)分析的工具:

  • SAS:SAS(STATISTICAL ANALYSIS SYSTEM,簡稱SAS)公司開發(fā)的統(tǒng)計(jì)分析軟件,是一個(gè)功能強(qiáng)大的數(shù)據(jù)庫整合平臺(tái)。價(jià)格昂貴,銀行或者大企業(yè)才買的起,做離線的分析或者模型用。
  • SPSS:SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案)是IBM公司推出的一系列用于統(tǒng)計(jì)學(xué)分析運(yùn)算、數(shù)據(jù)挖掘、預(yù)測(cè)分析和決策支持任務(wù)的產(chǎn)品,迄今已有40余年的成長歷史,價(jià)格昂貴。
  • R/MATLAB:適合做學(xué)術(shù)性質(zhì)的數(shù)據(jù)分析,在實(shí)際應(yīng)用上需要額外轉(zhuǎn)換為Python或Scala來實(shí)現(xiàn),而且MATLAB(MathWorks公司出品的商業(yè)數(shù)學(xué)軟件)是收費(fèi)的。
  • Scala:是一門函數(shù)式編程語言,熟練使用后開發(fā)效率較高,配合Spark適合大規(guī)模的數(shù)據(jù)分析和處理,Scala的運(yùn)行環(huán)境是JVM。
  • Python:Python在數(shù)據(jù)工程領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域有很多成熟的框架和算法庫,完全可以只用Python就可以構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序。在數(shù)據(jù)工程領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域,Python非常非常流行。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

當(dāng)前名稱:數(shù)據(jù)分析_DIKW與數(shù)據(jù)工程-創(chuàng)新互聯(lián)
鏈接URL:http://bm7419.com/article18/ihigp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站制作、定制網(wǎng)站、網(wǎng)站建設(shè)外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站營銷關(guān)鍵詞優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)