commit
58a0a8ac5a
|
|
@ -221,7 +221,7 @@ $$
|
|||
|
||||
首先给出一个输入输出结果
|
||||
|
||||
/img/ch5/img32.png)
|
||||

|
||||
|
||||
那是怎样计算的呢?
|
||||
|
||||
|
|
|
|||
|
|
@ -132,9 +132,9 @@
|
|||
4. 在标准的RNN结构中,隐层的神经元之间也是带有权值的,且权值共享。
|
||||
5. 理论上,RNNs能够对任何长度序列数据进行处理。但是在实践中,为了降低复杂度往往假设当前的状态只与之前某几个时刻状态相关,**下图便是一个典型的RNNs**:
|
||||
|
||||
/img/ch6/figure_6.2_1.png)
|
||||

|
||||
|
||||
/img/ch6/figure_6.2_2.jpg)
|
||||

|
||||
|
||||
输入单元(Input units):输入集$\bigr\{x_0,x_1,...,x_t,x_{t+1},...\bigr\}$,
|
||||
|
||||
|
|
@ -380,7 +380,7 @@ LSTM 拥有三个门,分别是忘记层门,输入层门和输出层门,来
|
|||
|
||||
LSTMs与GRUs的区别如图所示:
|
||||
|
||||
/img/ch6/figure_6.6.6_2.png)
|
||||

|
||||
|
||||
从上图可以看出,二者结构十分相似,**不同在于**:
|
||||
|
||||
|
|
|
|||
|
|
@ -25,7 +25,7 @@ $$
|
|||
$$
|
||||
这个目标函数可以分为两个部分来理解:
|
||||
|
||||
判别器的优化通过$\mathop {\max}\limits_D V(D,G)$实现,$V(D,G)$为判别器的目标函数,其第一项${\rm E}_{x\sim{p_{data}(x)}}[\log D(x)]$表示对于从真实数据分布 中采用的样本 ,其被判别器判定为真实样本概率的数学期望。对于真实数据分布 中采样的样本,其预测为正样本的概率当然是越接近1越好。因此希望最大化这一项。第二项${\rm E}_{z\sim{p_z}(z)}[\log (1 - D(G(z)))]$表示:对于从噪声P_z(z)分布当中采样得到的样本经过生成器生成之后得到的生成图片,然后送入判别器,其预测概率的负对数的期望,这个值自然是越大越好,这个值越大, 越接近0,也就代表判别器越好。
|
||||
判别器的优化通过$\mathop {\max}\limits_D V(D,G)$实现,$V(D,G)$为判别器的目标函数,其第一项${\rm E}_{x\sim{p_{data}(x)}}[\log D(x)]$表示对于从真实数据分布 中采用的样本 ,其被判别器判定为真实样本概率的数学期望。对于真实数据分布 中采样的样本,其预测为正样本的概率当然是越接近1越好。因此希望最大化这一项。第二项${\rm E}_{z\sim{p_z}(z)}[\log (1 - D(G(z)))]$表示:对于从噪声$P_z(z)$分布当中采样得到的样本经过生成器生成之后得到的生成图片,然后送入判别器,其预测概率的负对数的期望,这个值自然是越大越好,这个值越大, 越接近0,也就代表判别器越好。
|
||||
|
||||
生成器的优化通过$\mathop {\min }\limits_G({\mathop {\max }\limits_D V(D,G)})$实现。注意,生成器的目标不是$\mathop {\min }\limits_GV(D,G)$,即生成器**不是最小化判别器的目标函数**,生成器最小化的是**判别器目标函数的最大值**,判别器目标函数的最大值代表的是真实数据分布与生成数据分布的JS散度(详情可以参阅附录的推导),JS散度可以度量分布的相似性,两个分布越接近,JS散度越小。
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue