ID3、C4.5、CART三種決策樹的區(qū)別是什么

這篇文章給大家分享的是有關(guān)ID3、C4.5、CART三種決策樹的區(qū)別是什么的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),青浦企業(yè)網(wǎng)站建設(shè),青浦品牌網(wǎng)站建設(shè),網(wǎng)站定制,青浦網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,青浦網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

一棵決策樹包含一個(gè)根結(jié)點(diǎn)、若干個(gè)內(nèi)部結(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn);葉結(jié)點(diǎn)對(duì)應(yīng)于決策結(jié)果,其他每個(gè)結(jié)點(diǎn)則對(duì)應(yīng)一個(gè)屬性測(cè)試;每個(gè)結(jié)點(diǎn)包含的樣本結(jié)合根據(jù)屬性測(cè)試的結(jié)果被劃分到子結(jié)點(diǎn)中;根結(jié)點(diǎn)包含樣本全集,從根結(jié)點(diǎn)到每個(gè)葉結(jié)點(diǎn)的每個(gè)葉結(jié)點(diǎn)的路徑對(duì)應(yīng)一個(gè)判定測(cè)試序列。決策樹學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強(qiáng),也就是能夠處理未見實(shí)例的決策樹。

ID3決策樹

信息熵是度量樣本集合純度最常用的一種指標(biāo)。假設(shè)樣本集合D中第k類樣本所占的比重為pk,那么信息熵的計(jì)算則為下面的計(jì)算方式

ID3、C4.5、CART三種決策樹的區(qū)別是什么

當(dāng)這個(gè)Ent(D)的值越小,說明樣本集合D的純度就越高

有了信息熵,當(dāng)我選擇用樣本的某一個(gè)屬性a來劃分樣本集合D時(shí),就可以得出用屬性a對(duì)樣本D進(jìn)行劃分所帶來的“信息增益”

ID3、C4.5、CART三種決策樹的區(qū)別是什么

一般來講,信息增益越大,說明如果用屬性a來劃分樣本集合D,那么純度會(huì)提升,因?yàn)槲覀兎謩e對(duì)樣本的所有屬性計(jì)算增益情況,選擇最大的來作為決策樹的一個(gè)結(jié)點(diǎn),或者可以說那些信息增益大的屬性往往離根結(jié)點(diǎn)越近,因?yàn)槲覀儠?huì)優(yōu)先用能區(qū)分度大的也就是信息增益大的屬性來進(jìn)行劃分。當(dāng)一個(gè)屬性已經(jīng)作為劃分的依據(jù),在下面就不在參與競(jìng)選了,我們剛才說過根結(jié)點(diǎn)代表全部樣本,而經(jīng)過根結(jié)點(diǎn)下面屬性各個(gè)取值后樣本又可以按照相應(yīng)屬性值進(jìn)行劃分,并且在當(dāng)前的樣本下利用剩下的屬性再次計(jì)算信息增益來進(jìn)一步選擇劃分的結(jié)點(diǎn),ID3決策樹就是這樣建立起來的。

C4.5決策樹

C4.5決策樹的提出完全是為了解決ID3決策樹的一個(gè)缺點(diǎn),當(dāng)一個(gè)屬性的可取值數(shù)目較多時(shí),那么可能在這個(gè)屬性對(duì)應(yīng)的可取值下的樣本只有一個(gè)或者是很少個(gè),那么這個(gè)時(shí)候它的信息增益是非常高的,這個(gè)時(shí)候純度很高,ID3決策樹會(huì)認(rèn)為這個(gè)屬性很適合劃分,但是較多取值的屬性來進(jìn)行劃分帶來的問題是它的泛化能力比較弱,不能夠?qū)π聵颖具M(jìn)行有效的預(yù)測(cè)。

而C4.5決策樹則不直接使用信息增益來作為劃分樣本的主要依據(jù),而提出了另外一個(gè)概念,增益率

ID3、C4.5、CART三種決策樹的區(qū)別是什么

ID3、C4.5、CART三種決策樹的區(qū)別是什么

但是同樣的這個(gè)增益率對(duì)可取值數(shù)目較少的屬性有所偏好,因此C4.5決策樹先從候選劃分屬性中找出信息增益高于平均水平的屬性,在從中選擇增益率最高的。

CART決策樹

CART決策樹的全稱為Classification and Regression Tree,可以應(yīng)用于分類和回歸。

采用基尼系數(shù)來劃分屬性

基尼值

ID3、C4.5、CART三種決策樹的區(qū)別是什么

基尼系數(shù)

ID3、C4.5、CART三種決策樹的區(qū)別是什么

因此在候選屬性中選擇基尼系數(shù)最小的屬性作為最優(yōu)劃分屬性。


感謝各位的閱讀!關(guān)于“ID3、C4.5、CART三種決策樹的區(qū)別是什么”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

網(wǎng)頁標(biāo)題:ID3、C4.5、CART三種決策樹的區(qū)別是什么
網(wǎng)站路徑:http://bm7419.com/article22/igdjcc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)全網(wǎng)營(yíng)銷推廣、網(wǎng)站收錄、關(guān)鍵詞優(yōu)化用戶體驗(yàn)、電子商務(wù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)