From dfecec663051a85c5563f468eef64ecdba79e4c6 Mon Sep 17 00:00:00 2001 From: CoderOverflow Date: Thu, 11 Apr 2019 13:36:49 +0800 Subject: [PATCH] =?UTF-8?q?2.17.5=20=E7=86=B5=E7=9A=84=E6=A6=82=E5=BF=B5?= =?UTF-8?q?=E4=BB=A5=E5=8F=8A=E7=90=86=E8=A7=A3=20=E5=86=85=E5=AE=B9?= =?UTF-8?q?=E4=BF=AE=E8=AE=A2?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 2.17.5 熵的概念以及理解 内容修订 --- ch02_机器学习基础/第二章_机器学习基础.md | 5 ++--- 1 file changed, 2 insertions(+), 3 deletions(-) diff --git a/ch02_机器学习基础/第二章_机器学习基础.md b/ch02_机器学习基础/第二章_机器学习基础.md index 4ba25a3..444fd1f 100644 --- a/ch02_机器学习基础/第二章_机器学习基础.md +++ b/ch02_机器学习基础/第二章_机器学习基础.md @@ -1442,13 +1442,12 @@ $$ ### 2.17.5 熵的概念以及理解 - 熵:度量随机变量的不确定性。 - +​ 熵:度量随机变量的不确定性。 ​ 定义:假设随机变量X的可能取值有$x_{1},x_{2},...,x_{n}$,对于每一个可能的取值$x_{i}$,其概率为$P(X=x_{i})=p_{i},i=1,2...,n$。随机变量的熵为: $$ H(X)=-\sum_{i=1}^{n}p_{i}log_{2}p_{i} $$ -​ 对于样本集合 ,假设样本有k个类别,每个类别的概率为$\frac{|C_{k}|}{|D|}$,其中 ${|C_{k}|}{|D|}$为类别为k的样本个数,$|D|​$为样本总数。样本集合D的熵为: +​ 对于样本集合,假设样本有k个类别,每个类别的概率为$\frac{|C_{k}|}{|D|}$,其中 ${|C_{k}|}{|D|}$为类别为k的样本个数,$|D|​$为样本总数。样本集合D的熵为: $$ H(D)=-\sum_{k=1}^{k}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|} $$