加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1.信息增益是什么意思
    • 2.信息增益計(jì)算公式
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

信息增益

2022/12/13
6551
閱讀需 4 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

信息增益是信息熵理論中的一個(gè)重要概念。在決策樹算法中,通過計(jì)算不同特征對于樣本分類的貢獻(xiàn)程度,來確定哪些特征可以被選擇用于構(gòu)建決策樹。具體來說,信息增益表示某個(gè)特征在得知它的取值后,可以讓樣本集合的信息熵下降的程度。

1.信息增益是什么意思

信息增益是衡量使用某個(gè)特征劃分?jǐn)?shù)據(jù)集所能獲得的收益大小。在決策樹算法的訓(xùn)練過程中,通常從根節(jié)點(diǎn)開始,遞歸地選取當(dāng)前節(jié)點(diǎn)分支出去的最優(yōu)特征,以此構(gòu)建一棵子樹。進(jìn)行特征選擇時(shí),通常會計(jì)算每個(gè)候選特征的信息增益,選取其中信息增益最大的特征作為當(dāng)前節(jié)點(diǎn)的分裂標(biāo)準(zhǔn)。

2.信息增益計(jì)算公式

信息增益的計(jì)算涉及到熵的概念,熵可以度量樣本集合的不確定性程度。假設(shè)$D$表示總的樣本集合,$C_k$表示樣本集合的第$k$個(gè)類別,$D_k$表示屬于類別$C_k$的樣本子集,$p_k=|D_k|/|D|$ 表示樣本屬于類別$C_k$的概率,則總體熵可以表示為:

$$Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k$$

在當(dāng)前節(jié)點(diǎn)分裂后,樣本會被劃分到不同的子節(jié)點(diǎn)中,設(shè)一個(gè)特征屬性$A$有$V$個(gè)可能取值${a_1,a_2,dots,a_V}$,令$D^v$表示劃分后落入屬性$A$第$v$個(gè)取值的子集合,則使用該特征劃分?jǐn)?shù)據(jù)的信息增益可以表示為:

$$Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)$$

其中的權(quán)重$frac{|D^v|}{|D|}$表示第$v$個(gè)屬性值對應(yīng)的樣本占總樣本數(shù)的比例,$Ent(D^v)$表示子集中的樣本的信息熵。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜