數(shù)據(jù)預(yù)處理的四個(gè)步驟分別是什么

小編給大家分享一下數(shù)據(jù)預(yù)處理的四個(gè)步驟分別是什么,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

成都創(chuàng)新互聯(lián)公司成立與2013年,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元潛山做網(wǎng)站,已為上家服務(wù),為潛山各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18980820575

數(shù)據(jù)預(yù)處理的四個(gè)步驟分別是數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約;而數(shù)據(jù)的預(yù)處理是指對(duì)所收集數(shù)據(jù)進(jìn)行分類或分組前所做的審核、篩選、排序等必要的處理;數(shù)據(jù)預(yù)處理,一方面是為了提高數(shù)據(jù)的質(zhì)量,另一方面也是為了適應(yīng)所做數(shù)據(jù)分析的軟件或者方法。

數(shù)據(jù)的預(yù)處理是指對(duì)所收集數(shù)據(jù)進(jìn)行分類或分組前所做的審核、篩選、排序等必要的處理。

數(shù)據(jù)預(yù)處理一方面是為了提高數(shù)據(jù)的質(zhì)量,另一方面也是為了適應(yīng)所做數(shù)據(jù)分析的軟件或者方法。一般來說,數(shù)據(jù)預(yù)處理步驟有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約,每個(gè)大步驟又有一些小的細(xì)分點(diǎn)。當(dāng)然了,這四個(gè)大步驟在做數(shù)據(jù)預(yù)處理時(shí)未必都要執(zhí)行。

一、數(shù)據(jù)清洗

數(shù)據(jù)清洗,顧名思義,“黑”的變成“白”的,“臟”的數(shù)據(jù)變成“干凈”的,臟數(shù)據(jù)表現(xiàn)在形式上和內(nèi)容上的臟。

形式上的臟,如:缺失值、帶有特殊符號(hào)的;

內(nèi)容上的臟,如:異常值。

1、缺失值

缺失值包括缺失值的識(shí)別和缺失值的處理。

在R里缺失值的識(shí)別使用函數(shù)is.na判別,函數(shù)complete.cases識(shí)別樣本數(shù)據(jù)是否完整。

缺失值處理常用的方法有:刪除、替換和插補(bǔ)。

  • 刪除法 :刪除法根據(jù)刪除的不同角度又可以分為刪除觀測(cè)樣本和變量,刪除觀測(cè)樣本(行刪除法),在R里na.omit函數(shù)可以刪除所含缺失值的行。

    這就相當(dāng)于減少樣本量來換取信息的完整度,但當(dāng)變量有較大缺失并且對(duì)研究目標(biāo)影響不大時(shí),可考慮刪除變量R里使用語句mydata[,-p]來完成。mydata表示所刪數(shù)據(jù)集的名字,p是該刪除變量的列數(shù),-表示刪除。

  • 替換法 :替換法顧名思義對(duì)缺失值進(jìn)行替換,根據(jù)變量的不同又有不同的替換規(guī)則,缺失值的所在變量是數(shù)值型用該變量下其他數(shù)的均值來替換缺失值;變量為非數(shù)值變量時(shí)則用該變量下其他觀測(cè)值的中位數(shù)或眾數(shù)替換。

  • 插補(bǔ)法 :插補(bǔ)法分為回歸插補(bǔ)和多重插補(bǔ)。

    回歸插補(bǔ)指的是將插補(bǔ)的變量當(dāng)作因變量y,其他變量看錯(cuò)自變量,利用回歸模型進(jìn)行擬合,在R里使用lm回歸函數(shù)對(duì)缺失值進(jìn)行插補(bǔ);

    多重插補(bǔ)是指從一個(gè)包含缺失值的數(shù)據(jù)集中生成一組完整的數(shù)據(jù),多次進(jìn)行,產(chǎn)生缺失值的一個(gè)隨機(jī)樣本,在R里mice包可以進(jìn)行多重插補(bǔ)。

2、異常值

異常值跟缺失值一樣包括異常值的識(shí)別和異常值的處理。

  • 異常值的識(shí)別通常用單變量散點(diǎn)圖或箱形圖來處理,在R里dotchart是繪制單變量散點(diǎn)圖的函數(shù),boxplot函數(shù)繪制箱現(xiàn)圖;在圖形中,把遠(yuǎn)離正常范圍的點(diǎn)當(dāng)作異常值。

  • 異常值的的處理有刪除含有異常值的觀測(cè)(直接刪除,當(dāng)樣本少時(shí)直接刪除會(huì)造成樣本量不足,改變變量的分布)、當(dāng)作缺失值(利用現(xiàn)有的信息,對(duì)其當(dāng)缺失值填補(bǔ))、平均值修正(用前后兩個(gè)觀測(cè)值的均值修正該異常值)、不處理。在進(jìn)行異常值處理時(shí)要先復(fù)習(xí)異常值出現(xiàn)的可能原因,再判斷異常值是否應(yīng)該舍棄。

二、數(shù)據(jù)集成

所謂數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并放到一個(gè)數(shù)據(jù)存儲(chǔ)中,當(dāng)然如果所分析的數(shù)據(jù)原本就在一個(gè)數(shù)據(jù)存儲(chǔ)里就不需要數(shù)據(jù)的集成了(多合一)。

數(shù)據(jù)集成的實(shí)現(xiàn)是將兩個(gè)數(shù)據(jù)框以關(guān)鍵字為依據(jù),在R里用merge函數(shù)實(shí)現(xiàn),語句為merge(dataframe1, dataframe2,by=”關(guān)鍵字“”),默認(rèn)按升序排列。

在進(jìn)行數(shù)據(jù)集成時(shí)可能會(huì)出現(xiàn)如下問題:

  1. 同名異義,數(shù)據(jù)源A中某屬性名字和數(shù)據(jù)源B中某屬性名字相同,但所表示的實(shí)體不一樣,不能作為關(guān)鍵字;

  2. 異名同義,即兩個(gè)數(shù)據(jù)源某個(gè)屬性名字不一樣但所代表的實(shí)體一樣,可作為關(guān)鍵字;

  3. 數(shù)據(jù)集成往往造成數(shù)據(jù)冗余,可能是同一屬性多次出現(xiàn),也可能是屬性名字不一致導(dǎo)致的重復(fù),對(duì)于重復(fù)屬性一個(gè)先做相關(guān)分析檢測(cè),如果有再將其刪除。

三、數(shù)據(jù)變換

數(shù)據(jù)變換就是轉(zhuǎn)化成適當(dāng)?shù)男问?,來滿足軟件或分析理論的需要。

1、簡(jiǎn)單函數(shù)變換

簡(jiǎn)單函數(shù)變換用來將不具有正態(tài)分布的數(shù)據(jù)變成有正態(tài)分布的數(shù)據(jù),常用的有平方、開方、取對(duì)數(shù)、差分等。如在時(shí)間序列里常對(duì)數(shù)據(jù)對(duì)數(shù)或差分運(yùn)算,將非平穩(wěn)序列轉(zhuǎn)化成平穩(wěn)序列。

2、規(guī)范化

規(guī)范化就是剔除掉變量量綱上的影響,比如:直接比較身高和體重的差異,單位的不同和取值范圍的不同讓這件事不能直接比較。

  • 最小-最大規(guī)范化:也叫離差標(biāo)準(zhǔn)化,對(duì)數(shù)據(jù)進(jìn)行線性變換,將其范圍變成[0,1]

  • 零-均值規(guī)范化:也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,處理后的數(shù)據(jù)均值等于0,標(biāo)準(zhǔn)差為1

  • 小數(shù)定標(biāo)規(guī)范化:移動(dòng)屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]

3、連續(xù)屬性離散化

將連續(xù)屬性變量轉(zhuǎn)化成分類屬性,就是連續(xù)屬性離散化,特別是某些分類算法要求數(shù)據(jù)是分類屬性,如:ID3算法。

常用的離散化方法有如下幾種:

  1. 等寬法:將屬性的值域分成具有相同寬度的區(qū)間,類似制作頻率分布表;

  2. 等頻法:將相同的記錄放到每個(gè)區(qū)間;

  3. 一維聚類:兩個(gè)步驟,首先將連續(xù)屬性的值用聚類算法,然后將聚類得到的集合合并到一個(gè)連續(xù)性值并做同一標(biāo)記。

四、數(shù)據(jù)歸約

數(shù)據(jù)歸約是指在對(duì)挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上、尋找依賴于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。

數(shù)據(jù)規(guī)歸能夠降低無效錯(cuò)誤的數(shù)據(jù)對(duì)建模的影響、縮減時(shí)間、降低存儲(chǔ)數(shù)據(jù)的空間。

1、屬性歸約

屬性歸約是尋找最小的屬性子集并確定子集概率分布接近原來數(shù)據(jù)的概率分布。

  1. 合并屬性:將一些舊的屬性合并一個(gè)新的屬性;

  2. 逐步向前選擇:從一個(gè)空屬性集開始,每次在原來屬性集合選一個(gè)當(dāng)前最優(yōu)屬性添加到當(dāng)前子集中,一直到無法選擇最優(yōu)屬性或滿足一個(gè)約束值為止;

  3. 逐步先后選擇:從一個(gè)空屬性集開始,每次在原來屬性集合選一個(gè)當(dāng)前最差屬性并剔除當(dāng)前子集中,一直到無法選擇最差屬性或滿足一個(gè)約束值為止;

  4. 決策樹歸納:沒有出現(xiàn)在這個(gè)決策樹上的屬性從初始集合中刪除,獲得一個(gè)較優(yōu)的屬性子集;

  5. 主成份分析:用較少的變量去解釋原始數(shù)據(jù)中大部分變量(用相關(guān)性高的變量轉(zhuǎn)化成彼此相互獨(dú)立或不相關(guān)的變量)。

2、數(shù)值歸約

通過減少數(shù)據(jù)量,包括有參數(shù)和無參數(shù)方法,有參數(shù)如線性回歸和多元回歸,無參數(shù)法如直方圖、抽樣等。

以上是“數(shù)據(jù)預(yù)處理的四個(gè)步驟分別是什么”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

標(biāo)題名稱:數(shù)據(jù)預(yù)處理的四個(gè)步驟分別是什么
本文路徑:http://bm7419.com/article20/pscgjo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營(yíng)銷、品牌網(wǎng)站制作標(biāo)簽優(yōu)化、企業(yè)網(wǎng)站制作、做網(wǎng)站、網(wǎng)站收錄

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名