日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀]     決策樹,是機器學習中一種非常常見的分類方法,也可以說是所有算法中最直觀也最好理解的算法。   有人找我借錢(當然不太可能。。。),借還是不借?我會結合根據(jù)我自己有沒有錢

    決策樹,是機器學習中一種非常常見的分類方法,也可以說是所有算法中最直觀也最好理解的算法。

  有人找我借錢(當然不太可能。。。),借還是不借?我會結合根據(jù)我自己有沒有錢、我自己用不用錢、對方信用好不好這三個特征來決定我的答案。

  我們把轉到更普遍一點的視角,對于一些有特征的數(shù)據(jù),如果我們能夠有這么一顆決策樹,我們也就能非常容易地預測樣本的結論。所以問題就轉換成怎么求一顆合適的決策樹,也就是怎么對這些特征進行排序。

  在對特征排序前先設想一下,對某一個特征進行決策時,我們肯定希望分類后樣本的純度越高越好,也就是說分支結點的樣本盡可能屬于同一類別。

  所以在選擇根節(jié)點的時候,我們應該選擇能夠使得“分支結點純度最高”的那個特征。在處理完根節(jié)點后,對于其分支節(jié)點,繼續(xù)套用根節(jié)點的思想不斷遞歸,這樣就能形成一顆樹。這其實也是貪心算法的基本思想。那怎么量化“純度最高”呢?熵就當仁不讓了,它是我們最常用的度量純度的指標。其數(shù)學表達式如下:

  

  其中N表示結論有多少種可能取值,p表示在取第k個值的時候發(fā)生的概率,對于樣本而言就是發(fā)生的頻率/總個數(shù)。

  熵越小,說明樣本越純。

  以一個兩點分布樣本X(x=0或1)的熵的函數(shù)圖像來說明吧,橫坐標表示樣本值為1的概率,縱坐標表示熵。

  可以看到到當p(x=1)=0時,也就是說所有的樣本都為0,此時熵為0.

  當p(x=1)=1時,也就是說所有的樣本都為1,熵也為0.

  當p(x=1)=0.5時,也就是樣本中0,1各占一半,此時熵能取得最大值。

  擴展一下,樣本X可能取值為n種(x1。。。。xn)。可以證明,當p(xi)都等于1/n 時,也就是樣本絕對均勻,熵能達到最大。當p(xi)有一個為1,其他都為0時,也就是樣本取值都是xi,熵最小。

  決策樹算法

  ID3

  假設在樣本集X中,對于一個特征a,它可能有(a1,a2。。。an)這些取值,如果用特征a對樣本集X進行劃分(把它當根節(jié)點),肯定會有n個分支結點。剛才提了,我們希望劃分后,分支結點的樣本越純越好,也就是分支結點的“總熵”越小越好。

  因為每個分支結點的個數(shù)不一樣,因此我們計算“總熵”時應該做一個加權,假設第i個結點樣本個數(shù)為W(ai),其在所有樣本中的權值為W(ai) / W(X)。所以我們可以得到一個總熵:

  

  這個公式代表含義一句話:加權后各個結點的熵的總和。這個值應該越小,純度越高。

  這時候,我們引入一個名詞叫信息增益G(X,a),意思就是a這個特征給樣本帶來的信息的提升。公式就是:,由于H(X)對一個樣本而言,是一個固定值,因此信息增益G應該越大越好。尋找使得信息增益最大的特征作為目標結點,并逐步遞歸構建樹,這就是ID3算法的思想,好了以一個簡單的例子來說明信息增益的計算:

  

  上面的例子,我計算一下特征1的信息增益

  首先計算樣本的熵H(X)

  

  再計算總熵,可以看到特征1有3個結點A、B、C,其分別為6個、6個、5個

  所以A的權值為6/(6+6+5), B的權值為6/(6+6+5), C的為5/(6+6+5)

  因為我們希望劃分后結點的純度越高越好,因此還需要再分別計算結點A、B、C的熵

  特征1=A:3個是、3個否,其熵為

  

  特征1=B:2個是、4個否,其熵為

  

  特征1=C:4個是、1個否,其熵為

  

  這樣分支結點的總熵就等于:

  

  特征1的信息增益就等于0.998-0.889=0.109

  類似地,我們也能算出其他的特征的信息增益,最終取信息增益最大的特征作為根節(jié)點。

  以上計算也可以有經驗條件熵來推導:G(X,A)=H(X) - H(X|A),這部分有興趣的同學可以了解一下。

  C4.5

  在ID3算法中其實有個很明顯的問題。

  如果有一個樣本集,它有一個叫id或者姓名之類的(唯一的)的特征,那就完蛋了。設想一下,如果有n個樣本,id這個特征肯定會把這個樣本也分成n份,也就是有n個結點,每個結點只有一個值,那每個結點的熵就為0。就是說所有分支結點的總熵為0,那么這個特征的信息增益一定會達到最大值。因此如果此時用ID3作為決策樹算法,根節(jié)點必然是id這個特征。但是顯然這是不合理的。。。

  當然上面說的是極限情況,一般情況下,如果一個特征對樣本劃分的過于稀疏,這個也是不合理的(換句話就是,偏向更多取值的特征)。為了解決這個問題,C4.5算法采用了信息增益率來作為特征選取標準。

  所謂信息增益率,是在信息增益基礎上,除了一項split informaTIon,來懲罰值更多的屬性。

  

  而這個split informaTIon其實就是特征個數(shù)的熵H(A)。

  為什么這樣可以減少呢,以上面id的例子來理解一下。如果id把n個樣本分成了n份,那id這個特征的取值的概率都是1/n,文章引言已經說了,樣本絕對均勻的時候,熵最大。

  因此這種情況,以id為特征,雖然信息增益最大,但是懲罰因子split informaTIon也最大,以此來拉低其增益率,這就是C4.5的思想。

  CART

  決策樹的目的最終還是尋找到區(qū)分樣本的純度的量化標準。在CART決策樹中,采用的是基尼指數(shù)來作為其衡量標準。基尼系數(shù)直觀的理解是,從集合中隨機抽取兩個樣本,如果樣本集合越純,取到不同樣本的概率越小。這個概率反應的就是基尼系數(shù)。

  因此如果一個樣本有K個分類。假設樣本的某一個特征a有n個取值的話,其某一個結點取到不同樣本的概率為:

  因此k個分類的概率總和,我們稱之為基尼系數(shù):

  

  而基尼指數(shù),則是對所有結點的基尼系數(shù)進行加權處理

  

  計算出來后,我們會選擇基尼系數(shù)最小的那個特征作為最優(yōu)劃分特征。

  剪枝

  剪枝的目的其實就是防止過擬合,它是決策樹防止過擬合的最主要手段。決策樹中,為了盡可能爭取的分類訓練樣本,所以我們的決策樹也會一直生長。但是呢,有時候訓練樣本可能會學的太好,以至于把某些樣本的特有屬性當成一般屬性。這時候就我們就需要主動去除一些分支,來降低過擬合的風險。

  剪枝一般有兩種方式:預剪枝和后剪枝。

  預剪枝

  一般情況下,只要結點樣本已經100%純了,樹才會停止生長。但這個可能會產生過擬合,因此我們沒有必要讓它100%生長,所以在這之前,設定一些終止條件來提前終止它。這就叫預剪枝,這個過程發(fā)生在決策樹生成之前。

  一般我們預剪枝的手段有:

  1、限定樹的深度

  2、節(jié)點的子節(jié)點數(shù)目小于閾值

  3、設定結點熵的閾值等等。

  后剪枝

  顧名思義,這個剪枝是在決策樹建立過程后。后剪枝算法的算法很多,有些也挺深奧,這里提一個簡單的算法的思想,就不深究啦。

  Reduced-Error Pruning (REP)

  該剪枝方法考慮將樹上的每個節(jié)點都作為修剪的候選對象,但是有一些條件決定是否修剪,通常有這幾步:

  1、刪除其所有的子樹,使其成為葉節(jié)點。

  2、賦予該節(jié)點最關聯(lián)的分類

  3、用驗證數(shù)據(jù)驗證其準確度與處理前比較

  如果不比原來差,則真正刪除其子樹。然后反復從下往上對結點處理。這個處理方式其實是處理掉那些“有害”的節(jié)點。

  隨機森林

  隨機森林的理論其實和決策樹本身不應該牽扯在一起,決策樹只能作為其思想的一種算法。

  為什么要引入隨機森林呢。我們知道,同一批數(shù)據(jù),我們只能產生一顆決策樹,這個變化就比較單一了。還有要用多個算法的結合呢?

  這就有了集成學習的概念。

  

  圖中可以看到,每個個體學習器(弱學習器)都可包含一種算法,算法可以相同也可以不同。如果相同,我們把它叫做同質集成,反之則為異質。

  隨機森林則是集成學習采用基于bagging策略的一個特例。

  

  從上圖可以看出,bagging的個體學習器的訓練集是通過隨機采樣得到的。通過n次的隨機采樣,我們就可以得到n個樣本集。對于這n個樣本集,我們可以分別獨立的訓練出n個個體學習器,再對這n個個體學習器通過集合策略來得到最終的輸出,這n個個體學習器之間是相互獨立的,可以并行。

  注:集成學習還有另一種方式叫boosTIng,這種方式學習器之間存在強關聯(lián),有興趣的可以了解下。

  隨機森林采用的采樣方法一般是是Bootstap sampling,對于原始樣本集,我們每次先隨機采集一個樣本放入采樣集,然后放回,也就是說下次采樣時該樣本仍有可能被采集到,經過一定數(shù)量的采樣后得到一個樣本集。由于是隨機采樣,這樣每次的采樣集是和原始樣本集不同的,和其他采樣集也是不同的,這樣得到的個體學習器也是不同的。

  隨機森林最主要的問題是有了n個結果,怎么設定結合策略,主要方式也有這么幾種:

  加權平均法:

  平均法常用于回歸。做法就是,先對每個學習器都有一個事先設定的權值wi,

  

  然后最終的輸出就是:

  

  當學習器的權值都為1/n時,這個平均法叫簡單平均法。

  投票法:

  投票法類似我們生活中的投票,如果每個學習器的權值都是一樣的。

  那么有絕對投票法,也就是票數(shù)過半。相對投票法,少數(shù)服從多數(shù)。

  如果有加權,依然是少數(shù)服從多數(shù),只不過這里面的數(shù)是加權后的。

  例子

  以一個簡單的二次函數(shù)的代碼來看看決策樹怎么用吧。

  訓練數(shù)據(jù)是100個隨機的真實的平方數(shù)據(jù),不同的深度將會得到不同的曲線

  測試數(shù)據(jù)也是隨機數(shù)據(jù),但是不同深度的樹的模型,產生的預測值也不太一樣。如圖

  這幅圖的代碼如下:


  我的是python 3.6環(huán)境,需要安裝numpy、matplotlib、sklearn這三個庫,需要的話直接pip install,大家可以跑跑看看,雖然簡單但挺有趣。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據(jù)LED驅動電源的公式,電感內電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉