數(shù)據(jù)挖掘的意思是什么

這期內容當中小編將會給大家?guī)碛嘘P數(shù)據(jù)挖掘的意思是什么,文章內容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

站在用戶的角度思考問題,與客戶深入溝通,找到惠民網(wǎng)站設計與惠民網(wǎng)站推廣的解決方案,憑借多年的經驗,讓設計與互聯(lián)網(wǎng)技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站制作、做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、空間域名、網(wǎng)頁空間、企業(yè)郵箱。業(yè)務覆蓋惠民地區(qū)。

數(shù)據(jù)挖掘(Data Mining)就是從大量的數(shù)據(jù)中,提取隱藏在其中的,事先不知道的、但潛在有用的信息的過程。數(shù)據(jù)挖掘的目標是建立一個決策模型,根據(jù)過去的行動數(shù)據(jù)來預測未來的行為。

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。

數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。

數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉換為有用信息的整個過程,該過程包括一系列轉換步驟, 從數(shù)據(jù)的預處理到數(shù)據(jù)挖掘結果的后處理。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘的起源

來自不同學科的研究者匯集到一起,開始著手開發(fā)可以處理不同數(shù)據(jù) 類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和算法之上,而在數(shù)據(jù)挖掘領域達到高潮。

特別地,數(shù)據(jù)挖掘利用了來自如下一些領域的思想:(1)來自統(tǒng)計學的抽樣、估計和假設檢驗;(2)人工智能、模式識別和機器學習的搜索算法建模技術和學習理論。

數(shù)據(jù)挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。

一些其他領域也起到重要的支撐作用。數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術也能幫助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關重要。

數(shù)據(jù)挖掘的意思是什么

KDD(Knowledge Discovery from Database)

  • 數(shù)據(jù)清理

    消除噪聲和不一致的數(shù)據(jù);

  • 數(shù)據(jù)集成

    多種數(shù)據(jù)源可以組合在一起;

  • 數(shù)據(jù)選擇

    從數(shù)據(jù)庫中提取與分析任務相關的數(shù)據(jù);

  • 數(shù)據(jù)變換

    通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式;

  • 數(shù)據(jù)挖掘

    基本步驟,使用智能方法提取數(shù)據(jù)模式;

  • 模式評估

    根據(jù)某種興趣度,識別代表知識的真正有趣的模式;

  • 知識表示

    使用可視化和知識表示技術,向用戶提供挖掘的知識。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘方法論

  • 業(yè)務理解(business understanding)

    從商業(yè)角度理解項目的目標和要求,接著把這些理解知識通過理論分析轉化為數(shù)據(jù)挖掘可操作的問題,制定實現(xiàn)目標的初步規(guī)劃;

  • 數(shù)據(jù)理解(data understanding)

    數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù)、甄別數(shù)據(jù)質量問題、探索對數(shù)據(jù)的初步理解、發(fā)覺令人感興趣的子集以形成對探索信息的假設;

  • 數(shù)據(jù)準備(data preparation)

    數(shù)據(jù)準備階段指從最初原始數(shù)據(jù)中未加工的數(shù)據(jù)構造數(shù)據(jù)挖掘所需信息的活動。數(shù)據(jù)準備任務可能被實施多次,而且沒有任何規(guī)定的順序。這些任務的主要目的是從源系統(tǒng)根據(jù)維度分析的要求,獲取所需要的信息,需要對數(shù)據(jù)進行轉換、清洗、構造、整合等數(shù)據(jù)預處理工作;

  • 建模(modeling)

    在此階段,主要是選擇和應用各種建模技術。同時對它們的參數(shù)進行調優(yōu),以達到最優(yōu)值。通常對同一個數(shù)據(jù)挖掘問題類型,會有多種建模技術。一些技術對數(shù)據(jù)形式有特殊的要求,常常需要重新返回到數(shù)據(jù)準備階段;

  • 模型評估(evaluation)

    在模型部署發(fā)布前,需要從技術層面判斷模型效果和檢查建立模型的各個步驟,以及根據(jù)商業(yè)目標評估模型在實際商業(yè)場景中的實用性。此階段關鍵目的是判斷是否存在一些重要的商業(yè)問題仍未得到充分考慮;

  • 模型部署(deployment)

    模型完成后,由模型使用者(客戶)根據(jù)當時背景和目標完成情況,封裝滿足業(yè)務系統(tǒng)使用需求。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘任務

通常,數(shù)據(jù)挖掘任務分為下面兩大類。

  • 預測任務。這些任務的目標是根據(jù)其他屬性的值,預測特定屬性的值。被預測的屬性一 般稱目標變量(targetvariable)或因變量(dependentvariable), 而用來做預測的屬性稱說明變量(explanatoryvariable)或自變量(independentvariable)。

  • 描述任務。其目標是導出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性數(shù)據(jù)挖掘任務通常是探查性的,并且常常需要后處理技術驗證和解釋結果。

    數(shù)據(jù)挖掘的意思是什么

預測建模(predictivemodeling)涉及以說明變量函數(shù)的方式為目標變量建立模型。

有兩類預測建模任務:分類(classification),用于預測離散的目標變量;回歸(regression),用于預測連續(xù)的目標變量。

例如,預測一個Web用戶是否會在網(wǎng)上書店買書是分類任務,因為該目標變量是二值的,而預測某股票的未來價格則是回歸任務,因為價格具有連續(xù)值屬性。

兩項任務目標都是訓練一個模型,使目標變量預測值與實際值之間的誤差達到最小。預測建??梢杂脕泶_定顧客對產品促銷活動的反應,預測地球生態(tài)系統(tǒng)的擾動,或根據(jù)檢查結果判斷病人是否患有某種疾病。

關聯(lián)分析(association analysis)用來發(fā)現(xiàn)描述數(shù)據(jù)中強關聯(lián)特征的模式。

所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)規(guī)模的,關聯(lián)分析的目標是以有效的方式提取最有趣的模式。關聯(lián)分析的應用包括找出具有相關功能的基因組、識別用戶一起訪問的Web頁面、 理解地球氣候系統(tǒng)不同元素之間的聯(lián)系等。

聚類分析(cluster analysis)旨在發(fā)現(xiàn)緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比, 屬于同一簇的觀測值相互之間盡可能類似。聚類可用來對相關的顧客分組、找出顯著影響 地球氣候的海洋區(qū)域以及壓縮數(shù)據(jù)等。

異常檢測(anomaly detection)的任務是識別其特征顯著不同于其他數(shù)據(jù)的觀測值。

這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常檢測算法的目標是發(fā)現(xiàn)真正的異常點,而避免錯誤地將正常的對象標注為異常點換言之,一個好的異常檢測器必須具有高檢測率和低誤報率。

異常檢測的應用包括檢測欺詐、網(wǎng)絡攻擊、疾病的不尋常模式、生態(tài)系統(tǒng)擾動等。

上述就是小編為大家分享的數(shù)據(jù)挖掘的意思是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

名稱欄目:數(shù)據(jù)挖掘的意思是什么
本文網(wǎng)址:http://bm7419.com/article42/phohec.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供移動網(wǎng)站建設、品牌網(wǎng)站設計、服務器托管、電子商務、靜態(tài)網(wǎng)站、網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)