diff --git a/ch02_机器学习基础/第二章_机器学习基础.md b/ch02_机器学习基础/第二章_机器学习基础.md index 6bf206c..abea981 100644 --- a/ch02_机器学习基础/第二章_机器学习基础.md +++ b/ch02_机器学习基础/第二章_机器学习基础.md @@ -350,17 +350,17 @@ $$ ### 2.10.5 为什么用交叉熵代替二次代价函数 1. **为什么不用二次方代价函数** -由上一节可知,权值$w$和偏置$b$的偏导数为$\frac{\delta J}{\delta w}=(a-y)\delta'(z)x$,$\frac{\delta J}{\delta b}=(a-y)\delta'(z)$, 偏导数受激活函数的导数影响,sigmoid函数导数在输出接近0和1时非常小,会导致一些实例在刚开始训练时学习得非常慢。 +由上一节可知,权值$w$和偏置$b$的偏导数为$\frac{\partial J}{\partial w}=(a-y)\sigma'(z)x$,$\frac{\partial J}{\partial b}=(a-y)\sigma'(z)$, 偏导数受激活函数的导数影响,sigmoid函数导数在输出接近0和1时非常小,会导致一些实例在刚开始训练时学习得非常慢。 2. **为什么要用交叉熵** 交叉熵函数权值$w$和偏置$b$的梯度推导为: $$ -\frac{\delta J}{\delta w_j}=\frac{1}{n}\sum_{x}(\delta{(a)}-y)\;, -\frac{\delta J}{\delta b}=\frac{1}{n}\sum_{x}(\delta{(z)}-y) +\frac{\partial J}{\partial w_j}=\frac{1}{n}\sum_{x}(\sigma{(a)}-y)\;, +\frac{\partial J}{\partial b}=\frac{1}{n}\sum_{x}(\sigma{(z)}-y) $$ -由以上公式可知,权重学习的速度受到$\delta{(z)}-y$影响,更大的误差,就有更快的学习速度,避免了二次代价函数方程中因$\delta'{(z)}$导致的学习缓慢的情况。 +由以上公式可知,权重学习的速度受到$\sigma{(z)}-y$影响,更大的误差,就有更快的学习速度,避免了二次代价函数方程中因$\sigma'{(z)}$导致的学习缓慢的情况。 ## 2.11 损失函数