2.17.6 信息增益的理解 内容修订

2.17.6 信息增益的理解 内容修订
This commit is contained in:
CoderOverflow 2019-04-11 13:50:30 +08:00 committed by GitHub
parent c14a279892
commit 743f515d7a
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 7 additions and 13 deletions

View File

@ -1454,24 +1454,18 @@ H(D)=-\sum_{k=1}^{k}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}
$$ $$
### 2.17.6 信息增益的理解 ### 2.17.6 信息增益的理解
定义:以某特征划分数据集前后的熵的差值。
熵可以表示样本集合的不确定性熵越大样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D计算划分后的数据子集的熵为H(D|A)。
定义:以某特征划分数据集前后的熵的差值。
熵可以表示样本集合的不确定性熵越大样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D计算划分后的数据子集的熵为H(D|A)。
则信息增益为: 则信息增益为:
$$ $$
g(D,A)=H(D)-H(D|A) g(D,A)=H(D)-H(D|A)
$$ $$
在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展因此我们总是选择使得信息增益最大的特征来划分当前数据集D。 *注:*在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展因此我们总是选择使得信息增益最大的特征来划分当前数据集D。
思想计算所有特征划分数据集D得到多个特征划分数据集D的信息增益从这些信息增益中选择最大的因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。 思想计算所有特征划分数据集D得到多个特征划分数据集D的信息增益从这些信息增益中选择最大的因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。
另外这里提一下信息增益比相关知识:
另外这里提一下信息增益比相关知识: $信息增益比=惩罚参数\times信息增益$
信息增益比=惩罚参数X信息增益。
信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。 信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。
惩罚参数数据集D以特征A作为随机变量的熵的倒数。 惩罚参数数据集D以特征A作为随机变量的熵的倒数。
### 2.17.7 剪枝处理的作用及策略? ### 2.17.7 剪枝处理的作用及策略?