Merge pull request #482 from Zerg-Overmind/patch-1
Update 第三章_深度学习基础.md
This commit is contained in:
commit
36c8b4106e
|
|
@ -636,6 +636,12 @@ $s^{,}(x)=s(x)*(1-s(x))\in (0,\frac{1}{4}]$
|
|||
|
||||
由上面两个公式可知tanh(x)梯度消失的问题比sigmoid轻,所以Tanh收敛速度比Sigmoid快。
|
||||
|
||||
**(贡献者:郜泉凯 - 华南理工大学)**
|
||||
|
||||
注:梯度消失(gradient vanishing)或者爆炸(gradient explosion)是激活函数**以及当前权重**耦合产生的综合结果:
|
||||
设任意激活函数为$\sigma(\cdot)$,k+1层网络输出为$f_{k+1}=\sigma(Wf_k)$,求导得到$\frac {\partial h_{t+1}}{\partial h_t}=diag(\sigma'(Wh_t))W$。可见求导结果同时会受到权重$W$和激活函数的导数$\sigma'(\cdot)$的影响,以sigmoid函数$\sigma(X)=\frac {1}{1+e^{-x}}$为例,其导数为$\sigma'(x)=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})$,其值恒大于零小于1,用链式法则求梯度回传时连续相乘使得结果趋于0,但是如果权重$W$是较大的数值,使得$\frac {\partial f_{t+1}}{\partial f_t}$相乘结果大于1,则梯度回传时连续相乘则不会发生梯度消失。
|
||||
综上,在讨论激活函数收敛速度或与梯度消失或者爆炸相关时,应同时考虑当前权重$W$数值的影响。
|
||||
|
||||
3.4.13
|
||||
|
||||
### 3.4.12 内聚外斥 - Center Loss
|
||||
|
|
|
|||
Loading…
Reference in New Issue