數(shù)據(jù)挖掘入門必看的幾個(gè)問(wèn)題

要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息，必須先有效率地收集信息。隨著科技的進(jìn)步，功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。

創(chuàng)新互聯(lián)建站專業(yè)為企業(yè)提供回民網(wǎng)站建設(shè)、回民做網(wǎng)站、回民網(wǎng)站設(shè)計(jì)、回民網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、回民企業(yè)網(wǎng)站模板建站服務(wù)，十年回民做網(wǎng)站經(jīng)驗(yàn)，不只是建網(wǎng)站，更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

如何做好數(shù)據(jù)挖掘

NO.1 Data Mining 和統(tǒng)計(jì)分析有什么不同?

硬要去區(qū)分Data Mining和Statistics的差異其實(shí)是沒(méi)有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法，也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生，換另一個(gè)角度看，Data Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言，Data Mining有下列幾項(xiàng)特性：

1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì)，且無(wú)須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具;

2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件，Data Mining的工具更符合企業(yè)需求;

3. 純就理論的基礎(chǔ)點(diǎn)來(lái)看，Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別，畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。

NO.2 Data Warehousing 和 Data Mining 的關(guān)系為何?

若將Data Warehousing(數(shù)據(jù)倉(cāng)庫(kù))比喻作礦坑，Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無(wú)中生有的魔術(shù)，也不是點(diǎn)石成金的煉金術(shù)，若沒(méi)有夠豐富完整的數(shù)據(jù)，是很難期待Data Mining能挖掘出什么有意義的信息的。

要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息，必須先有效率地收集信息。隨著科技的進(jìn)步，功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù)，簡(jiǎn)單地說(shuō)，就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù)，存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過(guò)處理整合，且容量特別大的關(guān)系型數(shù)據(jù)庫(kù)，用以儲(chǔ)存決策支持系統(tǒng)(Design Support System)所需的數(shù)據(jù)，供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看，數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中，在正確的時(shí)間，將正確的數(shù)據(jù)交給正確的人。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群： 658558542 一起吹水交流學(xué)習(xí)（?點(diǎn)擊即可加入群聊）

許多人對(duì)于Data Warehousing和Data Mining時(shí)?；煜?，不知如何分辨。其實(shí)，數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題，利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考，讓作業(yè)方式改變，決策方式也跟著改變。

數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù)，它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù) 中整合而來(lái)的數(shù)據(jù)，特別是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)昂哭中，而公司的決策者則利用這些數(shù)據(jù)作決策;但是，這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程，是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述，數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù)：整合性數(shù)據(jù) (integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed andsummarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí)，是建立數(shù)據(jù)倉(cāng)庫(kù)與使用Data Mining的最大目的，兩者的本質(zhì)與過(guò)程是兩回事。換句話說(shuō)，數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建立完成，Data mining才能有效率的進(jìn)行，因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備，且經(jīng)過(guò)整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。

NO.3 OLAP 能不能代替 Data Mining?

所謂OLAP(OnlineAnalytical Process)意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō)：「我已經(jīng)有OLAP的工具了，所以我不需要Data Mining?！故聦?shí)上兩者間是截然不同的，主要差異在于Data Mining用在產(chǎn)生假設(shè)，OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō)，OLAP是由使用者所主導(dǎo)，使用者先有一些假設(shè)，然后利用OLAP來(lái)查證假設(shè)是否成立;而 Data Mining則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí)，使用者是自己在做探索(Exploration)，但Data Mining是用工具在幫助做探索。

舉個(gè)例子來(lái)看，一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí)，可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品，接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真，又成立的證據(jù)有多明顯;但Data Mining則不然，執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后，并不需要假設(shè)或期待可能的結(jié)果，透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則，于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn)，這是OLAP所做不到的。 Data Mining常能挖掘出超越歸納范圍的關(guān)系，但OLAP僅能利用人工查詢及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系，是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性，事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制，OLAP可以和Data Mining互補(bǔ)，但這項(xiàng)特性是Data Mining無(wú)法被OLAP取代的。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群： 658558542 一起吹水交流學(xué)習(xí)（?點(diǎn)擊即可加入群聊）

NO.4 完整的DataMining 包含哪些步驟?

以下提供一個(gè)Data Mining的進(jìn)行步驟以為參考：

1. 理解業(yè)務(wù)與理解數(shù)據(jù);

2. 獲取相關(guān)技術(shù)與知識(shí);

3. 整合與查詢數(shù)據(jù);

4.去除錯(cuò)誤或不一致及不完整的數(shù)據(jù);

5. 由數(shù)據(jù)選取樣本先行試驗(yàn);

6. 建立數(shù)據(jù)模型

7. 實(shí)際Data Mining的分析工作;

8. 測(cè)試與檢驗(yàn);

9. 找出假設(shè)并提出解釋;

10. 持續(xù)應(yīng)用于企業(yè)流程中。

由上述步驟可看出，Data Mining牽涉了大量的準(zhǔn)備工作與規(guī)劃過(guò)程，事實(shí)上許多專家皆認(rèn)為整套Data Mining的進(jìn)行有80%的時(shí)間精力是花費(fèi)在數(shù)據(jù)前置作業(yè)階段，其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知Data Mining只是信息挖掘過(guò)程中的一個(gè)步驟而已，在進(jìn)行此步驟前還有許多的工作要先完成。

NO.5 Data Mining 運(yùn)用了哪些理論與技術(shù)?

Data Mining是近年來(lái)數(shù)據(jù)庫(kù)應(yīng)用技術(shù)中相當(dāng)熱門的議題，看似神奇、聽(tīng)來(lái)時(shí)髦，實(shí)際上卻也不是什么新東西，因其所用之諸如預(yù)測(cè)模型、數(shù)據(jù)分割，連結(jié)分析 (Link Analysis)、偏差偵測(cè)(Deviation Detection)等，美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。

隨著信息科技超乎想象的進(jìn)展，許多新的計(jì)算機(jī)分析工具問(wèn)世，例如關(guān)系型數(shù)據(jù)庫(kù)、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等，使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。

R一般而言，Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表，統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù) 據(jù)挖掘技術(shù)，尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù)，是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來(lái)精簡(jiǎn)變量的因素分析(Factor Analysis)、用來(lái)分類的判別分析(DiscriminantAnalysis)，以及用來(lái)區(qū)隔群體的分群分析(Cluster Analysis)等，在Data Mining過(guò)程中特別常用。

在改良技術(shù)方面，應(yīng)用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型，根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則，一般多運(yùn)用在對(duì) 客戶數(shù)據(jù)的分析上，例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合，常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic InteractionDetector)兩種。

R類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式，由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣 (patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì)，與傳統(tǒng)回歸分析相比，好處是在進(jìn)行分析時(shí)無(wú)須限定模式，特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出; 缺點(diǎn)則在于其分析過(guò)程為一黑盒子，故常無(wú)法以可讀之模型格式展現(xiàn)，每階段的加權(quán)與轉(zhuǎn)換亦不明確，是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。

規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式，這是一種由一連串的「如果…/則…(If / Then)」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù)，在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問(wèn)題，通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除，以避免產(chǎn)生無(wú)意義的邏輯規(guī)則。

NO.6 Data Mining包含哪些主要功能?

Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來(lái)說(shuō)明：Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測(cè)類;Association和Sequence則屬于序列規(guī)則類。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群： 658558542 一起吹水交流學(xué)習(xí)（?點(diǎn)擊即可加入群聊）

Classification是根據(jù)一些變量的數(shù)值做計(jì)算，再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值，例如將一組數(shù)據(jù)分為‘可能會(huì)響應(yīng)’或是‘可能不會(huì)響應(yīng)’ 兩類)。Classification常被用來(lái)處理如前所述之郵寄對(duì)象篩選的問(wèn)題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來(lái)研究它們的特征，然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來(lái)尋找特征的已分類數(shù)據(jù)可能是來(lái)自我們的現(xiàn)有的客戶數(shù)據(jù)，或是將一個(gè)完整數(shù)據(jù)庫(kù)做部份取樣，再經(jīng)由實(shí)際的運(yùn)作來(lái)測(cè)試；譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫(kù)的部份取樣來(lái)建立一個(gè)Classification Model，再利用這個(gè)Model來(lái)對(duì)數(shù)據(jù)庫(kù)的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。

Clustering用在將數(shù)據(jù)分群，其目的在于將群間的差異找出來(lái)，同時(shí)也將群內(nèi)成員的相似性找出來(lái)。Clustering與Classification不同的是，在分析前并不知道會(huì)以何種方式或根據(jù)來(lái)分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來(lái)解讀這些分群的意義。

Regression是使用一系列的現(xiàn)有數(shù)值來(lái)預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來(lái)預(yù)測(cè)類別變量，特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具，推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限，在預(yù)測(cè)的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。

Time-SeriesForecasting與Regression功能類似，只是它是用現(xiàn)有的數(shù)值來(lái)預(yù)測(cè)未來(lái)的數(shù)值。兩者最大差異在于Time- Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-SeriesForecasting的工具可以處理有關(guān)時(shí)間的一些特性，譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過(guò)去與未來(lái)的關(guān)連性)。Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言，如果A是某一事件的一種選擇，則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如：如果顧客買了火腿和柳橙汁，那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。)Sequence Discovery與Association關(guān)系很密切，所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來(lái)作區(qū)隔(例如：如果A股票在某一天上漲12%，而且當(dāng)天股市加權(quán)指數(shù)下降，則B股票在兩天之內(nèi)上漲的機(jī)率是 68%)。

NO.7 Data Mining在各領(lǐng)域的應(yīng)用情形為何?

Data Mining在各領(lǐng)域的應(yīng)用非常廣泛，只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)庫(kù)，皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見(jiàn)的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。

于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性，并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合，其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見(jiàn)的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫(kù)行銷方式在導(dǎo)入Data Mining的技術(shù)后，使直效行銷的發(fā)展性更為強(qiáng)大，例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄，結(jié)合基本數(shù)據(jù)，并依其對(duì)品牌價(jià)值等級(jí)的高低來(lái)區(qū)隔顧客，進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面，由制造過(guò)程中找出影響產(chǎn)品品質(zhì)最重要的因素，以期提高作業(yè)流程的效率。

近來(lái)電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè)(FraudDetection)都很有興趣，這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非常可觀，Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易，達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用 Data Mining來(lái)分析市場(chǎng)動(dòng)向，并預(yù)測(cè)個(gè)別公司的營(yíng)運(yùn)以及股價(jià)走向。DataMining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè)，用來(lái)預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群： 658558542 一起吹水交流學(xué)習(xí)（?點(diǎn)擊即可加入群聊）

NO.8 Web Mining 和Data Mining有什么不同?

如果將Web視為CRM的一個(gè)新的Channel，則Web Mining便可單純看做Data Mining應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)的泛稱。

該如何測(cè)量一個(gè)網(wǎng)站是否成功?哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的?主要訪客是哪些人?什么原因吸引他們前來(lái)?如何從堆積如山之大量由網(wǎng)絡(luò)所得數(shù)據(jù)中找出讓網(wǎng)站運(yùn)作更有效率的操作因素?以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限于一般較為人所知的log file分析，除了計(jì)算網(wǎng)頁(yè)瀏覽率以及訪客人次外，舉凡網(wǎng)絡(luò)上的零售、財(cái)務(wù)服務(wù)、通訊服務(wù)、政府機(jī)關(guān)、醫(yī)療咨詢、遠(yuǎn)距教學(xué)等等，只要由網(wǎng)絡(luò)連結(jié)出的數(shù)據(jù)庫(kù) 夠大夠完整，所有Off-Line可進(jìn)行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫(kù)，實(shí)施更大規(guī)模的模型預(yù)測(cè)與推估，畢竟憑借網(wǎng)際網(wǎng)絡(luò)的便利性與***力再配合網(wǎng)絡(luò)行為的可追蹤性與高互動(dòng)特質(zhì)，一對(duì)一行銷的理念是最有機(jī)會(huì)在網(wǎng)絡(luò)世界里完全落實(shí)的。

整體而言，Web Mining具有以下特性：1. 數(shù)據(jù)收集容易且不引人注意，所謂凡走過(guò)必留下痕跡，當(dāng)訪客進(jìn)入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀(jì)錄的;2. 以交互式個(gè)人化服務(wù)為終極目標(biāo)，除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計(jì)的網(wǎng)頁(yè)之外，不同的訪客也會(huì)有不同的服務(wù)；3. 可整合外部來(lái)源數(shù)據(jù)讓分析功能發(fā)揮地更深更廣，除了log file、cookies、會(huì)員填表數(shù)據(jù)、線上調(diào)查數(shù)據(jù)、線上交易數(shù)據(jù)等由網(wǎng)絡(luò)直接取得的資源外，結(jié)合實(shí)體世界累積時(shí)間更久、范圍更廣的資源，將使分析的結(jié)果更準(zhǔn)確也更深入。

利用Data Mining技術(shù)建立更深入的訪客數(shù)據(jù)剖析，并賴以架構(gòu)精準(zhǔn)的預(yù)測(cè)模式，以期呈現(xiàn)真正智能型個(gè)人化的網(wǎng)絡(luò)服務(wù)，是Web Mining努力的方向。

NO.9 Data Mining 在 CRM 中扮演的角色為何?

CRM(CustomerRelationship Management)是近來(lái)引起熱烈討論與高度關(guān)切的議題，尤其在直效行銷的崛起與網(wǎng)絡(luò)的快速發(fā)展帶動(dòng)下，跟不上CRM的腳步如同跟不上時(shí)代。事實(shí)上 CRM并不算新發(fā)明，奧美直效行銷推動(dòng)十?dāng)?shù)年的CO(Customer Ownership)就是現(xiàn)在大家談的CRM―客戶關(guān)系管理。

Data Mining應(yīng)用在CRM的主要方式可對(duì)應(yīng)在Gap Analysis之三個(gè)部分：

針對(duì)Acquisition Gap，可利用Customer Profiling找出客戶的一些共同的特征，希望能藉此深入了解客戶，藉由Cluster Analysis對(duì)客戶進(jìn)行分群后再透過(guò)Pattern Analysis預(yù)測(cè)哪些人可能成為我們的客戶，以幫助行銷人員找到正確的行銷對(duì)象，進(jìn)而降低成本，也提高行銷的成功率。

針對(duì)Sales Gap，可利用BasketAnalysis幫助了解客戶的產(chǎn)品消費(fèi)模式，找出哪些產(chǎn)品客戶最容易一起購(gòu)買，或是利用SequenceDiscovery 預(yù)測(cè)客戶在買了某一樣產(chǎn)品之后，在多久之內(nèi)會(huì)買另一樣產(chǎn)品等等。利用 Data Mining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進(jìn)貨量或庫(kù)存量，甚或是在店里要如何擺設(shè)貨品等，同時(shí)也可以用來(lái)評(píng)估促銷活動(dòng)的成效。

針對(duì)RetentionGap，可以由原客戶后來(lái)卻轉(zhuǎn)成競(jìng)爭(zhēng)對(duì) 手的客戶群中，分析其特征，再根據(jù)分析結(jié)果到現(xiàn)有客戶數(shù)據(jù)中找出可能轉(zhuǎn)向的客戶，然后設(shè)計(jì)一些方法預(yù)防客戶流失;更有系統(tǒng)的做法是藉由Neural Network根據(jù)客戶的消費(fèi)行為與交易紀(jì)錄對(duì)客戶忠誠(chéng)度進(jìn)行Scoring的排序，如此則可區(qū)隔流失率的等級(jí)進(jìn)而配合不同的策略。

CRM不是設(shè)一個(gè)(080)客服專線就算了，更不僅只是把一堆客戶基本數(shù)據(jù)輸入計(jì)算機(jī)就夠，完整的CRM運(yùn)作機(jī)制在相關(guān)的硬軟件系統(tǒng)能健全的支持之前，有太多的數(shù)據(jù)準(zhǔn)備工作與分析需要推動(dòng)。企業(yè)透過(guò)Data Mining可以分別針對(duì)策略、目標(biāo)定位、操作效能與測(cè)量評(píng)估等四個(gè)切面之相關(guān)問(wèn)題，有效率地從市場(chǎng)與顧客所搜集累積之大量數(shù)據(jù)中挖掘出對(duì)消費(fèi)者而言最關(guān) 鍵、最重要的答案，并賴以建立真正由客戶需求點(diǎn)出發(fā)的客戶關(guān)系管理。

NO.10 目前業(yè)界有哪些常用的Data Mining分析工具?

工具市場(chǎng)大致可分為三類：

1. 一般分析目的用的軟件包

Sas Enterprise Miner

IBM Intelligent Miner

Unica PRW

SPSS Clementine

SGI MineSet

Oracle Darwin

Angoss KnowledgeSeeker

2. 針對(duì)特定功能或產(chǎn)業(yè)而研發(fā)的軟件

KD1(針對(duì)零售業(yè))

Options & Choices(針對(duì)保險(xiǎn)業(yè))

HNC(針對(duì)信用卡詐欺或呆帳偵測(cè))

Unica Model 1(針對(duì)行銷業(yè))

整合DSS(Decision SupportSystems)/OLAP/Data Mining的大型分析系統(tǒng)

Cognos Scenario and Business Objects

結(jié)語(yǔ)

感謝您的觀看，如有不足之處，歡迎批評(píng)指正。

如果有對(duì)大數(shù)據(jù)感興趣的小伙伴或者是從事大數(shù)據(jù)的老司機(jī)可以加群：

658558542 （?點(diǎn)擊即可加入群聊）

里面整理了一大份學(xué)習(xí)資料，全都是些干貨，包括大數(shù)據(jù)技術(shù)入門，海量數(shù)據(jù)高級(jí)分析語(yǔ)言，海量數(shù)據(jù)存儲(chǔ)分布式存儲(chǔ)，以及海量數(shù)據(jù)分析分布式計(jì)算等部分，送給每一位大數(shù)據(jù)小伙伴，這里不止是小白聚集地，還有大牛在線解答！歡迎初學(xué)和進(jìn)階中的小伙伴一起進(jìn)群學(xué)習(xí)交流，共同進(jìn)步！

最后祝福所有遇到瓶頸的大數(shù)據(jù)程序員們突破自己，祝福大家在往后的工作與面試中一切順利。

當(dāng)前名稱：數(shù)據(jù)挖掘入門必看的幾個(gè)問(wèn)題
URL標(biāo)題：http://bm7419.com/article40/gijeho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站設(shè)計(jì)公司、企業(yè)網(wǎng)站制作、網(wǎng)站排名、微信公眾號(hào)、品牌網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計(jì)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容