Merge pull request #315 from CoderOverflow/patch-3
2.12.7 各种梯度下降法性能比较 内容修订
This commit is contained in:
commit
471bab0d69
|
|
@ -692,7 +692,7 @@ $$
|
|||
$$
|
||||
|
||||
### 2.12.7 各种梯度下降法性能比较
|
||||
下表简单对比随机梯度下降(SGD)、批量梯度下降(BGD)、小批量梯度下降(mini-batch GD)、和online GD的区别:
|
||||
下表简单对比随机梯度下降(SGD)、批量梯度下降(BGD)、小批量梯度下降(Mini-batch GD)、和Online GD的区别:
|
||||
|
||||
|BGD|SGD|GD|Mini-batch GD|Online GD|
|
||||
|:-:|:-:|:-:|:-:|:-:|:-:|
|
||||
|
|
@ -702,11 +702,11 @@ $$
|
|||
|时效性|低|一般|一般|高|
|
||||
|收敛性|稳定|不稳定|较稳定|不稳定|
|
||||
|
||||
BGD、SGD、Mini-batch GD,前面均已讨论过,这里介绍一下Online GD。
|
||||
BGD、SGD、Mini-batch GD,前面均已讨论过,这里介绍一下Online GD。
|
||||
|
||||
Online GD于mini-batch GD/SGD的区别在于,所有训练数据只用一次,然后丢弃。这样做的优点在于可预测最终模型的变化趋势。
|
||||
Online GD于Mini-batch GD/SGD的区别在于,所有训练数据只用一次,然后丢弃。这样做的优点在于可预测最终模型的变化趋势。
|
||||
|
||||
Online GD在互联网领域用的较多,比如搜索广告的点击率(CTR)预估模型,网民的点击行为会随着时间改变。用普通的BGD算法(每天更新一次)一方面耗时较长(需要对所有历史数据重新训练);另一方面,无法及时反馈用户的点击行为迁移。而Online GD算法可以实时的依据网民的点击行为进行迁移。
|
||||
Online GD在互联网领域用的较多,比如搜索广告的点击率(CTR)预估模型,网民的点击行为会随着时间改变。用普通的BGD算法(每天更新一次)一方面耗时较长(需要对所有历史数据重新训练);另一方面,无法及时反馈用户的点击行为迁移。而Online GD算法可以实时的依据网民的点击行为进行迁移。
|
||||
|
||||
## 2.13 计算图的导数计算图解?
|
||||
计算图导数计算是反向传播,利用链式法则和隐式函数求导。
|
||||
|
|
|
|||
Loading…
Reference in New Issue