Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

成都創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司一直秉承“誠信做人,踏實做事”的原則,不欺瞞客戶,是我們最起碼的底線! 以服務(wù)為基礎(chǔ),以質(zhì)量求生存,以技術(shù)求發(fā)展,成交一個客戶多一個朋友!專注中小微企業(yè)官網(wǎng)定制,成都網(wǎng)站制作、成都網(wǎng)站建設(shè),塑造企業(yè)網(wǎng)絡(luò)形象打造互聯(lián)網(wǎng)企業(yè)效應(yīng)。

數(shù)據(jù)預(yù)處理

數(shù)據(jù)中不同特征的量綱可能不一致,數(shù)值間的差別可能很大,不進行處理可能會影響到數(shù)據(jù)分析的結(jié)果,因此,需要對數(shù)據(jù)按照一定比例進行縮放,使之落在一個特定的區(qū)域,便于進行綜合分析。

常用的方法有兩種:

最大 - 最小規(guī)范化:對原始數(shù)據(jù)進行線性變換,將數(shù)據(jù)映射到[0,1]區(qū)間

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

Z-Score標(biāo)準化:將原始數(shù)據(jù)映射到均值為0、標(biāo)準差為1的分布上

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

為什么要標(biāo)準化/歸一化?

提升模型精度:標(biāo)準化/歸一化后,不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類器的準確性。

加速模型收斂:標(biāo)準化/歸一化后,最優(yōu)解的尋優(yōu)過程明顯會變得平緩,更容易正確的收斂到最優(yōu)解。

如下圖所示:

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

哪些機器學(xué)習(xí)算法需要標(biāo)準化和歸一化

1)需要使用梯度下降和計算距離的模型要做歸一化,因為不做歸一化會使收斂的路徑程z字型下降,導(dǎo)致收斂路徑太慢,而且不容易找到最優(yōu)解,歸一化之后加快了梯度下降求最優(yōu)解的速度,并有可能提高精度。比如說線性回歸、邏輯回歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計算距離的模型需要做歸一化,比如說KNN、KMeans等。

2)概率模型、樹形結(jié)構(gòu)模型不需要歸一化,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,如決策樹、隨機森林。

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

徹底理解標(biāo)準化和歸一化

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

示例數(shù)據(jù)集包含一個自變量(已購買)和三個因變量(國家,年齡和薪水),可以看出用薪水范圍比年齡寬的多,如果直接將數(shù)據(jù)用于機器學(xué)習(xí)模型(比如KNN、KMeans),模型將完全有薪水主導(dǎo)。

#導(dǎo)入數(shù)據(jù)
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('Data.csv')

缺失值均值填充,處理字符型變量

df['Salary'].fillna((df['Salary'].mean()), inplace= 
True)
df['Age'].fillna((df['Age'].mean()), inplace= True)
df['Purchased'] = df['Purchased'].apply(lambda x: 0 if x=='No' else 1)
df=pd.get_dummies(data=df, columns=['Country'])

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

最大 - 最小規(guī)范化

from sklearn.preprocessing 
import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

Z-Score標(biāo)準化

from sklearn.preprocessing 
import StandardScaler
sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
sc_X = pd.DataFrame(data=sc_X, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理

import seaborn 
as sns
import matplotlib.pyplot as plt
import statistics
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
fig,axes=plt.subplots(2,3,figsize=(18,12))
sns.distplot(df['Age'], ax=axes[0, 0])
sns.distplot(df_MinMax['Age'], ax=axes[0, 1])
axes[0, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Age'])))
sns.distplot(sc_X['Age'], ax=axes[0, 2])
axes[0, 2].set_title('標(biāo)準化方差:% s '% (statistics.stdev(sc_X['Age'])))
sns.distplot(df['Salary'], ax=axes[1, 0])
sns.distplot(df_MinMax['Salary'], ax=axes[1, 1])
axes[1, 1].set_title('MinMax:Salary')
axes[1, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Salary'])))
sns.distplot(sc_X['Salary'], ax=axes[1, 2])
axes[1, 2].set_title('StandardScaler:Salary')
axes[1, 2].set_title('標(biāo)準化方差:% s '% (statistics.stdev(sc_X['Salary'])))

可以看出歸一化比標(biāo)準化方法產(chǎn)生的標(biāo)準差小,使用歸一化來縮放數(shù)據(jù),則數(shù)據(jù)將更集中在均值附近。這是由于歸一化的縮放是“拍扁”統(tǒng)一到區(qū)間(僅由極值決定),而標(biāo)準化的縮放是更加“彈性”和“動態(tài)”的,和整體樣本的分布有很大的關(guān)系。所以歸一化不能很好地處理離群值,而標(biāo)準化對異常值的魯棒性強,在許多情況下,它優(yōu)于歸一化。

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進一步的了解或閱讀更多相關(guān)文章,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對創(chuàng)新互聯(lián)的支持。

網(wǎng)站名稱:Python中怎么實現(xiàn)數(shù)據(jù)預(yù)處理
文章鏈接:http://bm7419.com/article34/jcsepe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、動態(tài)網(wǎng)站響應(yīng)式網(wǎng)站、軟件開發(fā)、營銷型網(wǎng)站建設(shè)手機網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)