解讀決策樹(shù)與隨機(jī)森林模型的概念

時(shí)間：2020-08-06 16:54:01

關(guān)鍵字：決策樹(shù) 機(jī)器學(xué)習(xí) 隨機(jī)森林

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　　　決策樹(shù)，是機(jī)器學(xué)習(xí)中一種非常常見(jiàn)的分類(lèi)方法，也可以說(shuō)是所有算法中最直觀也最好理解的算法。　　有人找我借錢(qián)（當(dāng)然不太可能。。。），借還是不借？我會(huì)結(jié)合根據(jù)我自己有沒(méi)有錢(qián)

　　　　決策樹(shù)，是機(jī)器學(xué)習(xí)中一種非常常見(jiàn)的分類(lèi)方法，也可以說(shuō)是所有算法中最直觀也最好理解的算法。

　　有人找我借錢(qián)（當(dāng)然不太可能。。。），借還是不借？我會(huì)結(jié)合根據(jù)我自己有沒(méi)有錢(qián)、我自己用不用錢(qián)、對(duì)方信用好不好這三個(gè)特征來(lái)決定我的答案。

　　我們把轉(zhuǎn)到更普遍一點(diǎn)的視角，對(duì)于一些有特征的數(shù)據(jù)，如果我們能夠有這么一顆決策樹(shù)，我們也就能非常容易地預(yù)測(cè)樣本的結(jié)論。所以問(wèn)題就轉(zhuǎn)換成怎么求一顆合適的決策樹(shù)，也就是怎么對(duì)這些特征進(jìn)行排序。

　　在對(duì)特征排序前先設(shè)想一下，對(duì)某一個(gè)特征進(jìn)行決策時(shí)，我們肯定希望分類(lèi)后樣本的純度越高越好，也就是說(shuō)分支結(jié)點(diǎn)的樣本盡可能屬于同一類(lèi)別。

　　所以在選擇根節(jié)點(diǎn)的時(shí)候，我們應(yīng)該選擇能夠使得“分支結(jié)點(diǎn)純度最高”的那個(gè)特征。在處理完根節(jié)點(diǎn)后，對(duì)于其分支節(jié)點(diǎn)，繼續(xù)套用根節(jié)點(diǎn)的思想不斷遞歸，這樣就能形成一顆樹(shù)。這其實(shí)也是貪心算法的基本思想。那怎么量化“純度最高”呢？熵就當(dāng)仁不讓了，它是我們最常用的度量純度的指標(biāo)。其數(shù)學(xué)表達(dá)式如下：

　　其中N表示結(jié)論有多少種可能取值，p表示在取第k個(gè)值的時(shí)候發(fā)生的概率，對(duì)于樣本而言就是發(fā)生的頻率/總個(gè)數(shù)。

　　熵越小，說(shuō)明樣本越純。

　　以一個(gè)兩點(diǎn)分布樣本X（x=0或1）的熵的函數(shù)圖像來(lái)說(shuō)明吧，橫坐標(biāo)表示樣本值為1的概率，縱坐標(biāo)表示熵。

　　可以看到到當(dāng)p（x=1）=0時(shí)，也就是說(shuō)所有的樣本都為0，此時(shí)熵為0.

　　當(dāng)p（x=1）=1時(shí)，也就是說(shuō)所有的樣本都為1，熵也為0.

　　當(dāng)p（x=1）=0.5時(shí)，也就是樣本中0，1各占一半，此時(shí)熵能取得最大值。

　　擴(kuò)展一下，樣本X可能取值為n種（x1。。。。xn）。可以證明，當(dāng)p（xi）都等于1/n 時(shí)，也就是樣本絕對(duì)均勻，熵能達(dá)到最大。當(dāng)p（xi）有一個(gè)為1，其他都為0時(shí)，也就是樣本取值都是xi，熵最小。

　　決策樹(shù)算法

　　ID3

　　假設(shè)在樣本集X中，對(duì)于一個(gè)特征a，它可能有（a1，a2。。。an）這些取值，如果用特征a對(duì)樣本集X進(jìn)行劃分（把它當(dāng)根節(jié)點(diǎn)），肯定會(huì)有n個(gè)分支結(jié)點(diǎn)。剛才提了，我們希望劃分后，分支結(jié)點(diǎn)的樣本越純?cè)胶?，也就是分支結(jié)點(diǎn)的“總熵”越小越好。

　　因?yàn)槊總€(gè)分支結(jié)點(diǎn)的個(gè)數(shù)不一樣，因此我們計(jì)算“總熵”時(shí)應(yīng)該做一個(gè)加權(quán)，假設(shè)第i個(gè)結(jié)點(diǎn)樣本個(gè)數(shù)為W（ai），其在所有樣本中的權(quán)值為W（ai） / W（X）。所以我們可以得到一個(gè)總熵：

　　這個(gè)公式代表含義一句話：加權(quán)后各個(gè)結(jié)點(diǎn)的熵的總和。這個(gè)值應(yīng)該越小，純度越高。

　　這時(shí)候，我們引入一個(gè)名詞叫信息增益G（X，a），意思就是a這個(gè)特征給樣本帶來(lái)的信息的提升。公式就是：，由于H（X）對(duì)一個(gè)樣本而言，是一個(gè)固定值，因此信息增益G應(yīng)該越大越好。尋找使得信息增益最大的特征作為目標(biāo)結(jié)點(diǎn)，并逐步遞歸構(gòu)建樹(shù)，這就是ID3算法的思想，好了以一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明信息增益的計(jì)算：

　　上面的例子，我計(jì)算一下特征1的信息增益

　　首先計(jì)算樣本的熵H（X）

　　再計(jì)算總熵，可以看到特征1有3個(gè)結(jié)點(diǎn)A、B、C，其分別為6個(gè)、6個(gè)、5個(gè)

　　所以A的權(quán)值為6/（6+6+5）， B的權(quán)值為6/（6+6+5）， C的為5/（6+6+5）

　　因?yàn)槲覀兿Ｍ麆澐趾蠼Y(jié)點(diǎn)的純度越高越好，因此還需要再分別計(jì)算結(jié)點(diǎn)A、B、C的熵

　　特征1=A：3個(gè)是、3個(gè)否，其熵為

　　特征1=B：2個(gè)是、4個(gè)否，其熵為

　　特征1=C：4個(gè)是、1個(gè)否，其熵為

　　這樣分支結(jié)點(diǎn)的總熵就等于：

　　特征1的信息增益就等于0.998-0.889=0.109

　　類(lèi)似地，我們也能算出其他的特征的信息增益，最終取信息增益最大的特征作為根節(jié)點(diǎn)。

　　以上計(jì)算也可以有經(jīng)驗(yàn)條件熵來(lái)推導(dǎo)：G（X，A）=H（X） - H（X|A），這部分有興趣的同學(xué)可以了解一下。

　　C4.5

　　在ID3算法中其實(shí)有個(gè)很明顯的問(wèn)題。

　　如果有一個(gè)樣本集，它有一個(gè)叫id或者姓名之類(lèi)的（唯一的）的特征，那就完蛋了。設(shè)想一下，如果有n個(gè)樣本，id這個(gè)特征肯定會(huì)把這個(gè)樣本也分成n份，也就是有n個(gè)結(jié)點(diǎn)，每個(gè)結(jié)點(diǎn)只有一個(gè)值，那每個(gè)結(jié)點(diǎn)的熵就為0。就是說(shuō)所有分支結(jié)點(diǎn)的總熵為0，那么這個(gè)特征的信息增益一定會(huì)達(dá)到最大值。因此如果此時(shí)用ID3作為決策樹(shù)算法，根節(jié)點(diǎn)必然是id這個(gè)特征。但是顯然這是不合理的。。。

　　當(dāng)然上面說(shuō)的是極限情況，一般情況下，如果一個(gè)特征對(duì)樣本劃分的過(guò)于稀疏，這個(gè)也是不合理的（換句話就是，偏向更多取值的特征）。為了解決這個(gè)問(wèn)題，C4.5算法采用了信息增益率來(lái)作為特征選取標(biāo)準(zhǔn)。

　　所謂信息增益率，是在信息增益基礎(chǔ)上，除了一項(xiàng)split informaTIon，來(lái)懲罰值更多的屬性。

　　而這個(gè)split informaTIon其實(shí)就是特征個(gè)數(shù)的熵H（A）。

　　為什么這樣可以減少呢，以上面id的例子來(lái)理解一下。如果id把n個(gè)樣本分成了n份，那id這個(gè)特征的取值的概率都是1/n，文章引言已經(jīng)說(shuō)了，樣本絕對(duì)均勻的時(shí)候，熵最大。

　　因此這種情況，以id為特征，雖然信息增益最大，但是懲罰因子split informaTIon也最大，以此來(lái)拉低其增益率，這就是C4.5的思想。

　　CART

　　決策樹(shù)的目的最終還是尋找到區(qū)分樣本的純度的量化標(biāo)準(zhǔn)。在CART決策樹(shù)中，采用的是基尼指數(shù)來(lái)作為其衡量標(biāo)準(zhǔn)。基尼系數(shù)直觀的理解是，從集合中隨機(jī)抽取兩個(gè)樣本，如果樣本集合越純，取到不同樣本的概率越小。這個(gè)概率反應(yīng)的就是基尼系數(shù)。

　　因此如果一個(gè)樣本有K個(gè)分類(lèi)。假設(shè)樣本的某一個(gè)特征a有n個(gè)取值的話，其某一個(gè)結(jié)點(diǎn)取到不同樣本的概率為：

　　因此k個(gè)分類(lèi)的概率總和，我們稱(chēng)之為基尼系數(shù)：

　　而基尼指數(shù)，則是對(duì)所有結(jié)點(diǎn)的基尼系數(shù)進(jìn)行加權(quán)處理

　　計(jì)算出來(lái)后，我們會(huì)選擇基尼系數(shù)最小的那個(gè)特征作為最優(yōu)劃分特征。

　　剪枝

　　剪枝的目的其實(shí)就是防止過(guò)擬合，它是決策樹(shù)防止過(guò)擬合的最主要手段。決策樹(shù)中，為了盡可能爭(zhēng)取的分類(lèi)訓(xùn)練樣本，所以我們的決策樹(shù)也會(huì)一直生長(zhǎng)。但是呢，有時(shí)候訓(xùn)練樣本可能會(huì)學(xué)的太好，以至于把某些樣本的特有屬性當(dāng)成一般屬性。這時(shí)候就我們就需要主動(dòng)去除一些分支，來(lái)降低過(guò)擬合的風(fēng)險(xiǎn)。

　　剪枝一般有兩種方式：預(yù)剪枝和后剪枝。

　　預(yù)剪枝

　　一般情況下，只要結(jié)點(diǎn)樣本已經(jīng)100%純了，樹(shù)才會(huì)停止生長(zhǎng)。但這個(gè)可能會(huì)產(chǎn)生過(guò)擬合，因此我們沒(méi)有必要讓它100%生長(zhǎng)，所以在這之前，設(shè)定一些終止條件來(lái)提前終止它。這就叫預(yù)剪枝，這個(gè)過(guò)程發(fā)生在決策樹(shù)生成之前。

　　一般我們預(yù)剪枝的手段有：

　　1、限定樹(shù)的深度

　　2、節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)目小于閾值

　　3、設(shè)定結(jié)點(diǎn)熵的閾值等等。

　　后剪枝

　　顧名思義，這個(gè)剪枝是在決策樹(shù)建立過(guò)程后。后剪枝算法的算法很多，有些也挺深?yuàn)W，這里提一個(gè)簡(jiǎn)單的算法的思想，就不深究啦。

　　Reduced-Error Pruning （REP）

　　該剪枝方法考慮將樹(shù)上的每個(gè)節(jié)點(diǎn)都作為修剪的候選對(duì)象，但是有一些條件決定是否修剪，通常有這幾步：

　　1、刪除其所有的子樹(shù)，使其成為葉節(jié)點(diǎn)。

　　2、賦予該節(jié)點(diǎn)最關(guān)聯(lián)的分類(lèi)

　　3、用驗(yàn)證數(shù)據(jù)驗(yàn)證其準(zhǔn)確度與處理前比較

　　如果不比原來(lái)差，則真正刪除其子樹(shù)。然后反復(fù)從下往上對(duì)結(jié)點(diǎn)處理。這個(gè)處理方式其實(shí)是處理掉那些“有害”的節(jié)點(diǎn)。

　　隨機(jī)森林

　　隨機(jī)森林的理論其實(shí)和決策樹(shù)本身不應(yīng)該牽扯在一起，決策樹(shù)只能作為其思想的一種算法。

　　為什么要引入隨機(jī)森林呢。我們知道，同一批數(shù)據(jù)，我們只能產(chǎn)生一顆決策樹(shù)，這個(gè)變化就比較單一了。還有要用多個(gè)算法的結(jié)合呢？

　　這就有了集成學(xué)習(xí)的概念。

　　圖中可以看到，每個(gè)個(gè)體學(xué)習(xí)器（弱學(xué)習(xí)器）都可包含一種算法，算法可以相同也可以不同。如果相同，我們把它叫做同質(zhì)集成，反之則為異質(zhì)。

　　隨機(jī)森林則是集成學(xué)習(xí)采用基于bagging策略的一個(gè)特例。

　　從上圖可以看出，bagging的個(gè)體學(xué)習(xí)器的訓(xùn)練集是通過(guò)隨機(jī)采樣得到的。通過(guò)n次的隨機(jī)采樣，我們就可以得到n個(gè)樣本集。對(duì)于這n個(gè)樣本集，我們可以分別獨(dú)立的訓(xùn)練出n個(gè)個(gè)體學(xué)習(xí)器，再對(duì)這n個(gè)個(gè)體學(xué)習(xí)器通過(guò)集合策略來(lái)得到最終的輸出，這n個(gè)個(gè)體學(xué)習(xí)器之間是相互獨(dú)立的，可以并行。

　　注：集成學(xué)習(xí)還有另一種方式叫boosTIng，這種方式學(xué)習(xí)器之間存在強(qiáng)關(guān)聯(lián)，有興趣的可以了解下。

　　隨機(jī)森林采用的采樣方法一般是是Bootstap sampling，對(duì)于原始樣本集，我們每次先隨機(jī)采集一個(gè)樣本放入采樣集，然后放回，也就是說(shuō)下次采樣時(shí)該樣本仍有可能被采集到，經(jīng)過(guò)一定數(shù)量的采樣后得到一個(gè)樣本集。由于是隨機(jī)采樣，這樣每次的采樣集是和原始樣本集不同的，和其他采樣集也是不同的，這樣得到的個(gè)體學(xué)習(xí)器也是不同的。

　　隨機(jī)森林最主要的問(wèn)題是有了n個(gè)結(jié)果，怎么設(shè)定結(jié)合策略，主要方式也有這么幾種：

　　加權(quán)平均法：

　　平均法常用于回歸。做法就是，先對(duì)每個(gè)學(xué)習(xí)器都有一個(gè)事先設(shè)定的權(quán)值wi，

　　然后最終的輸出就是：

　　當(dāng)學(xué)習(xí)器的權(quán)值都為1/n時(shí)，這個(gè)平均法叫簡(jiǎn)單平均法。

　　投票法：

　　投票法類(lèi)似我們生活中的投票，如果每個(gè)學(xué)習(xí)器的權(quán)值都是一樣的。

　　那么有絕對(duì)投票法，也就是票數(shù)過(guò)半。相對(duì)投票法，少數(shù)服從多數(shù)。

　　如果有加權(quán)，依然是少數(shù)服從多數(shù)，只不過(guò)這里面的數(shù)是加權(quán)后的。

　　例子

　　以一個(gè)簡(jiǎn)單的二次函數(shù)的代碼來(lái)看看決策樹(shù)怎么用吧。

　　訓(xùn)練數(shù)據(jù)是100個(gè)隨機(jī)的真實(shí)的平方數(shù)據(jù)，不同的深度將會(huì)得到不同的曲線

　　測(cè)試數(shù)據(jù)也是隨機(jī)數(shù)據(jù)，但是不同深度的樹(shù)的模型，產(chǎn)生的預(yù)測(cè)值也不太一樣。如圖

　　這幅圖的代碼如下：

　　我的是python 3.6環(huán)境，需要安裝numpy、matplotlib、sklearn這三個(gè)庫(kù)，需要的話直接pip install，大家可以跑跑看看，雖然簡(jiǎn)單但挺有趣。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動(dòng)方式相比，共陰恒流驅(qū)動(dòng)在能效有哪些優(yōu)勢(shì)

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動(dòng)電源

[電源]

工業(yè)電機(jī)驅(qū)動(dòng)電源設(shè)計(jì)：反電動(dòng)勢(shì)抑制與過(guò)流保護(hù)的集成方案

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動(dòng)力設(shè)備，其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動(dòng)勢(shì)抑制與過(guò)流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動(dòng)電源

[電源]

如何解決 LED 驅(qū)動(dòng)電源的易損壞問(wèn)題

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動(dòng)電源易損壞的問(wèn)題卻十分常見(jiàn)，不僅增加了維護(hù)成本，還影響了用戶(hù)體驗(yàn)。要解決這一問(wèn)題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動(dòng)電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動(dòng)電源的公式

根據(jù)LED驅(qū)動(dòng)電源的公式，電感內(nèi)電流波動(dòng)大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動(dòng)電源

[汽車(chē)電子]

EV主驅(qū)IGBT隔離驅(qū)動(dòng)電源方案選擇問(wèn)題探討

電動(dòng)汽車(chē)(EV)作為新能源汽車(chē)的重要代表，正逐漸成為全球汽車(chē)產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車(chē)的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動(dòng)汽車(chē)的動(dòng)力性能和...

關(guān)鍵字：電動(dòng)汽車(chē) 新能源驅(qū)動(dòng)電源

[電源]

合理的驅(qū)動(dòng)電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車(chē)場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動(dòng)電源 LED

[消費(fèi)電子]

AC-DC電源轉(zhuǎn)換拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn)，如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字： LED 驅(qū)動(dòng)電源功率因數(shù)校正

[電源]

針對(duì)于LED照明驅(qū)動(dòng)電源技術(shù)中的電磁干擾其中的三大硬件問(wèn)題措施

在LED照明技術(shù)日益普及的今天，LED驅(qū)動(dòng)電源的電磁干擾(EMI)問(wèn)題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作，還可能對(duì)周?chē)娮釉O(shè)備造成不利影響，甚至引發(fā)系統(tǒng)故障。因此，采取有效的硬件措施來(lái)解決L...

關(guān)鍵字： LED照明技術(shù) 電磁干擾驅(qū)動(dòng)電源

[電源]

LED驅(qū)動(dòng)電源的核心部分“開(kāi)關(guān)管”和“變換器”設(shè)計(jì)技巧

開(kāi)關(guān)電源具有效率高的特性,而且開(kāi)關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字： LED 驅(qū)動(dòng)電源開(kāi)關(guān)電源

[電源]

最全LED驅(qū)動(dòng)電源及散熱設(shè)計(jì)方案介紹

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器，通常情況下：LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字： LED 隧道燈驅(qū)動(dòng)電源