Update 第二章 内容修正

公式修正
This commit is contained in:
CoderOverflow 2019-04-02 02:29:59 +08:00 committed by GitHub
parent 6c51f34a8f
commit fcefae363f
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 4 additions and 4 deletions

View File

@ -350,17 +350,17 @@ $$
### 2.10.5 为什么用交叉熵代替二次代价函数
1. **为什么不用二次方代价函数**
由上一节可知,权值$w$和偏置$b$的偏导数为$\frac{\delta J}{\delta w}=(a-y)\delta'(z)x$$\frac{\delta J}{\delta b}=(a-y)\delta'(z)$ 偏导数受激活函数的导数影响sigmoid函数导数在输出接近0和1时非常小会导致一些实例在刚开始训练时学习得非常慢。
由上一节可知,权值$w$和偏置$b$的偏导数为$\frac{\partial J}{\partial w}=(a-y)\sigma'(z)x$$\frac{\partial J}{\partial b}=(a-y)\sigma'(z)$ 偏导数受激活函数的导数影响sigmoid函数导数在输出接近0和1时非常小会导致一些实例在刚开始训练时学习得非常慢。
2. **为什么要用交叉熵**
交叉熵函数权值$w$和偏置$b$的梯度推导为:
$$
\frac{\delta J}{\delta w_j}=\frac{1}{n}\sum_{x}(\delta{(a)}-y)\;
\frac{\delta J}{\delta b}=\frac{1}{n}\sum_{x}(\delta{(z)}-y)
\frac{\partial J}{\partial w_j}=\frac{1}{n}\sum_{x}(\sigma{(a)}-y)\;
\frac{\partial J}{\partial b}=\frac{1}{n}\sum_{x}(\sigma{(z)}-y)
$$
由以上公式可知,权重学习的速度受到$\delta{(z)}-y$影响,更大的误差,就有更快的学习速度,避免了二次代价函数方程中因$\delta'{(z)}$导致的学习缓慢的情况。
由以上公式可知,权重学习的速度受到$\sigma{(z)}-y$影响,更大的误差,就有更快的学习速度,避免了二次代价函数方程中因$\sigma'{(z)}$导致的学习缓慢的情况。
## 2.11 损失函数