From 743f515d7a3875e823bfd1a766d48e0d13fcd6e6 Mon Sep 17 00:00:00 2001 From: CoderOverflow Date: Thu, 11 Apr 2019 13:50:30 +0800 Subject: [PATCH] =?UTF-8?q?2.17.6=20=E4=BF=A1=E6=81=AF=E5=A2=9E=E7=9B=8A?= =?UTF-8?q?=E7=9A=84=E7=90=86=E8=A7=A3=20=E5=86=85=E5=AE=B9=E4=BF=AE?= =?UTF-8?q?=E8=AE=A2?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 2.17.6 信息增益的理解 内容修订 --- ch02_机器学习基础/第二章_机器学习基础.md | 20 +++++++------------- 1 file changed, 7 insertions(+), 13 deletions(-) diff --git a/ch02_机器学习基础/第二章_机器学习基础.md b/ch02_机器学习基础/第二章_机器学习基础.md index 4ba25a3..06e022e 100644 --- a/ch02_机器学习基础/第二章_机器学习基础.md +++ b/ch02_机器学习基础/第二章_机器学习基础.md @@ -1454,24 +1454,18 @@ H(D)=-\sum_{k=1}^{k}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|} $$ ### 2.17.6 信息增益的理解 -​ 定义:以某特征划分数据集前后的熵的差值。 -​ 熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 -​ 假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D,计算划分后的数据子集的熵为H(D|A)。 +​ 定义:以某特征划分数据集前后的熵的差值。 +​ 熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 ​ 假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D,计算划分后的数据子集的熵为H(D|A)。 ​ 则信息增益为: $$ g(D,A)=H(D)-H(D|A) $$ -​ 注:在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展,因此我们总是选择使得信息增益最大的特征来划分当前数据集D。 - -​ 思想:计算所有特征划分数据集D,得到多个特征划分数据集D的信息增益,从这些信息增益中选择最大的,因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。 - -另外这里提一下信息增益比相关知识: - -​ 信息增益比=惩罚参数X信息增益。 - -​ 信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。 - +​ *注:*在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展,因此我们总是选择使得信息增益最大的特征来划分当前数据集D。 +​ 思想:计算所有特征划分数据集D,得到多个特征划分数据集D的信息增益,从这些信息增益中选择最大的,因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。 +​ 另外这里提一下信息增益比相关知识: +​ $信息增益比=惩罚参数\times信息增益$ +​ 信息增益比本质:在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。 ​ 惩罚参数:数据集D以特征A作为随机变量的熵的倒数。 ### 2.17.7 剪枝处理的作用及策略?