Merge pull request #482 from Zerg-Overmind/patch-1

Update 第三章_深度学习基础.md
2020-07-30 09:14:26 +08:00 · 2020-07-30 09:14:26 +08:00 · 36c8b4106e
parent 2021aa1820 3845dae3b8
commit 36c8b4106e
1 changed files with 6 additions and 0 deletions
--- a/ch03_深度学习基础/第三章_深度学习基础.md
+++ b/ch03_深度学习基础/第三章_深度学习基础.md
@ -636,6 +636,12 @@ $s^{,}(x)=s(x)*(1-s(x))\in (0,\frac{1}{4}]$

 由上面两个公式可知tanh(x)梯度消失的问题比sigmoid轻，所以Tanh收敛速度比Sigmoid快。

+**（贡献者：郜泉凯 - 华南理工大学）**
+
+注：梯度消失（gradient vanishing）或者爆炸（gradient explosion）是激活函数**以及当前权重**耦合产生的综合结果：
+   设任意激活函数为$\sigma(\cdot)$，k+1层网络输出为$f_{k+1}=\sigma(Wf_k)$，求导得到$\frac {\partial h_{t+1}}{\partial h_t}=diag(\sigma'(Wh_t))W$。可见求导结果同时会受到权重$W$和激活函数的导数$\sigma'(\cdot)$的影响，以sigmoid函数$\sigma(X)=\frac {1}{1+e^{-x}}$为例，其导数为$\sigma'(x)=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})$，其值恒大于零小于1，用链式法则求梯度回传时连续相乘使得结果趋于0，但是如果权重$W$是较大的数值，使得$\frac {\partial f_{t+1}}{\partial f_t}$相乘结果大于1，则梯度回传时连续相乘则不会发生梯度消失。
+综上，在讨论激活函数收敛速度或与梯度消失或者爆炸相关时，应同时考虑当前权重$W$数值的影响。
+
 3.4.13

 ### 3.4.12 内聚外斥 - Center Loss