parent
6c51f34a8f
commit
fcefae363f
|
|
@ -350,17 +350,17 @@ $$
|
||||||
|
|
||||||
### 2.10.5 为什么用交叉熵代替二次代价函数
|
### 2.10.5 为什么用交叉熵代替二次代价函数
|
||||||
1. **为什么不用二次方代价函数**
|
1. **为什么不用二次方代价函数**
|
||||||
由上一节可知,权值$w$和偏置$b$的偏导数为$\frac{\delta J}{\delta w}=(a-y)\delta'(z)x$,$\frac{\delta J}{\delta b}=(a-y)\delta'(z)$, 偏导数受激活函数的导数影响,sigmoid函数导数在输出接近0和1时非常小,会导致一些实例在刚开始训练时学习得非常慢。
|
由上一节可知,权值$w$和偏置$b$的偏导数为$\frac{\partial J}{\partial w}=(a-y)\sigma'(z)x$,$\frac{\partial J}{\partial b}=(a-y)\sigma'(z)$, 偏导数受激活函数的导数影响,sigmoid函数导数在输出接近0和1时非常小,会导致一些实例在刚开始训练时学习得非常慢。
|
||||||
|
|
||||||
2. **为什么要用交叉熵**
|
2. **为什么要用交叉熵**
|
||||||
交叉熵函数权值$w$和偏置$b$的梯度推导为:
|
交叉熵函数权值$w$和偏置$b$的梯度推导为:
|
||||||
|
|
||||||
$$
|
$$
|
||||||
\frac{\delta J}{\delta w_j}=\frac{1}{n}\sum_{x}(\delta{(a)}-y)\;,
|
\frac{\partial J}{\partial w_j}=\frac{1}{n}\sum_{x}(\sigma{(a)}-y)\;,
|
||||||
\frac{\delta J}{\delta b}=\frac{1}{n}\sum_{x}(\delta{(z)}-y)
|
\frac{\partial J}{\partial b}=\frac{1}{n}\sum_{x}(\sigma{(z)}-y)
|
||||||
$$
|
$$
|
||||||
|
|
||||||
由以上公式可知,权重学习的速度受到$\delta{(z)}-y$影响,更大的误差,就有更快的学习速度,避免了二次代价函数方程中因$\delta'{(z)}$导致的学习缓慢的情况。
|
由以上公式可知,权重学习的速度受到$\sigma{(z)}-y$影响,更大的误差,就有更快的学习速度,避免了二次代价函数方程中因$\sigma'{(z)}$导致的学习缓慢的情况。
|
||||||
|
|
||||||
## 2.11 损失函数
|
## 2.11 损失函数
|
||||||
|
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue