Merge pull request #482 from Zerg-Overmind/patch-1

Update 第三章_深度学习基础.md
This commit is contained in:
scutan90 2020-07-30 09:14:26 +08:00 committed by GitHub
commit 36c8b4106e
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 6 additions and 0 deletions

View File

@ -636,6 +636,12 @@ $s^{,}(x)=s(x)*(1-s(x))\in (0,\frac{1}{4}]$
由上面两个公式可知tanh(x)梯度消失的问题比sigmoid轻所以Tanh收敛速度比Sigmoid快。 由上面两个公式可知tanh(x)梯度消失的问题比sigmoid轻所以Tanh收敛速度比Sigmoid快。
**(贡献者:郜泉凯 - 华南理工大学)**
梯度消失gradient vanishing或者爆炸gradient explosion是激活函数**以及当前权重**耦合产生的综合结果:
设任意激活函数为$\sigma(\cdot)$k+1层网络输出为$f_{k+1}=\sigma(Wf_k)$,求导得到$\frac {\partial h_{t+1}}{\partial h_t}=diag(\sigma'(Wh_t))W$。可见求导结果同时会受到权重$W$和激活函数的导数$\sigma'(\cdot)$的影响以sigmoid函数$\sigma(X)=\frac {1}{1+e^{-x}}$为例,其导数为$\sigma'(x)=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})$其值恒大于零小于1用链式法则求梯度回传时连续相乘使得结果趋于0但是如果权重$W$是较大的数值,使得$\frac {\partial f_{t+1}}{\partial f_t}$相乘结果大于1则梯度回传时连续相乘则不会发生梯度消失。
综上,在讨论激活函数收敛速度或与梯度消失或者爆炸相关时,应同时考虑当前权重$W$数值的影响。
3.4.13 3.4.13
### 3.4.12 内聚外斥 - Center Loss ### 3.4.12 内聚外斥 - Center Loss