數(shù)據(jù)挖掘是什么-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!

成都創(chuàng)新互聯(lián)公司長(zhǎng)期為1000+客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺(tái),與合作伙伴共同營(yíng)造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為布爾津企業(yè)提供專業(yè)的成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè),布爾津網(wǎng)站改版等技術(shù)服務(wù)。擁有10余年豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。

本篇文章給大家分享的是有關(guān)數(shù)據(jù)挖掘是什么,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)在大量數(shù)據(jù)中搜索隱藏信息的目標(biāo)。

數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。

數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策。

知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成:①數(shù)據(jù)準(zhǔn)備;②數(shù)據(jù)挖掘;③結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。

數(shù)據(jù)挖掘?qū)ο?/strong>

數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至是異構(gòu)型的。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的,也可以是歸納的。最終被發(fā)現(xiàn)了的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。 [4]

數(shù)據(jù)挖掘的對(duì)象可以是任何類型的數(shù)據(jù)源??梢允顷P(guān)系數(shù)據(jù)庫(kù),此類包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉(cāng)庫(kù)、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)、Web數(shù)據(jù),此類包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。 [4]

發(fā)現(xiàn)知識(shí)的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。

數(shù)據(jù)挖掘步驟

在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的計(jì)劃才能保證數(shù)據(jù)挖掘有條不紊地實(shí)施并取得成功。很多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問(wèn)公司投提供了一些數(shù)據(jù)挖掘過(guò)程模型,來(lái)指導(dǎo)他們的用戶一步步地進(jìn)行數(shù)據(jù)挖掘工作。比如,SPSS公司的5A和SAS公司的SEMMA。

數(shù)據(jù)挖掘過(guò)程模型步驟主要包括定義問(wèn)題、建立數(shù)據(jù)挖掘庫(kù)、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評(píng)價(jià)模型和實(shí)施。下面讓我們來(lái)具體看一下每個(gè)步驟的具體內(nèi)容:

(1)定義問(wèn)題。在開始知識(shí)發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問(wèn)題。必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時(shí),想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價(jià)值”,要解決這兩個(gè)問(wèn)題而建立的模型幾乎是完全不同的,必須做出決定。

(2)建立數(shù)據(jù)挖掘庫(kù)。建立數(shù)據(jù)挖掘庫(kù)包括以下幾個(gè)步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫(kù),維護(hù)數(shù)據(jù)挖掘庫(kù)。

(3)分析數(shù)據(jù)。分析的目的是找到對(duì)預(yù)測(cè)輸出影響大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時(shí)和累人的事情,這時(shí)需要選擇一個(gè)具有好的界面和功能強(qiáng)大的工具軟件來(lái)協(xié)助你完成這些事情。

(4)準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作。可以把此步驟分為四個(gè)部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。

(5)建立模型。建立模型是一個(gè)反復(fù)的過(guò)程。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)面對(duì)的商業(yè)問(wèn)題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來(lái)測(cè)試和驗(yàn)證這個(gè)得到的模型。有時(shí)還有第三個(gè)數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的影響,這時(shí)需要一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)驗(yàn)證模型的準(zhǔn)確性。訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個(gè)部分,一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測(cè)試。

(6)評(píng)價(jià)模型。模型建立好之后,必須評(píng)價(jià)得到的結(jié)果、解釋模型的價(jià)值。從測(cè)試集中得到的準(zhǔn)確率只對(duì)用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。經(jīng)驗(yàn)證明,有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實(shí)世界中測(cè)試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺(jué)得滿意之后再向大范圍推廣。

(7)實(shí)施。模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。

以上就是數(shù)據(jù)挖掘是什么,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。

新聞名稱:數(shù)據(jù)挖掘是什么-創(chuàng)新互聯(lián)
本文路徑:http://bm7419.com/article2/dcoooc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶體驗(yàn)外貿(mào)網(wǎng)站建設(shè)、App設(shè)計(jì)網(wǎng)頁(yè)設(shè)計(jì)公司、品牌網(wǎng)站設(shè)計(jì)、動(dòng)態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)