diff --git a/ch05_卷积神经网络(CNN)/第五章 卷积神经网络(CNN).md b/ch05_卷积神经网络(CNN)/第五章 卷积神经网络(CNN).md index 410fb69..f84fb5e 100644 --- a/ch05_卷积神经网络(CNN)/第五章 卷积神经网络(CNN).md +++ b/ch05_卷积神经网络(CNN)/第五章 卷积神经网络(CNN).md @@ -221,7 +221,7 @@ $$ 首先给出一个输入输出结果 -![image](E:/500/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0500%E9%97%AE-20190113/ch05_%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C(CNN)/img/ch5/img32.png) +![image](./img/ch5/img32.png) 那是怎样计算的呢? diff --git a/ch06_循环神经网络(RNN)/第六章_循环神经网络(RNN).md b/ch06_循环神经网络(RNN)/第六章_循环神经网络(RNN).md index 978fe56..c5601a4 100644 --- a/ch06_循环神经网络(RNN)/第六章_循环神经网络(RNN).md +++ b/ch06_循环神经网络(RNN)/第六章_循环神经网络(RNN).md @@ -132,9 +132,9 @@ 4. 在标准的RNN结构中,隐层的神经元之间也是带有权值的,且权值共享。 5. 理论上,RNNs能够对任何长度序列数据进行处理。但是在实践中,为了降低复杂度往往假设当前的状态只与之前某几个时刻状态相关,**下图便是一个典型的RNNs**: -![](E:/DeepLearning-500-questions/ch06_%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C(RNN)/img/ch6/figure_6.2_1.png) +![](./img/ch6/figure_6.2_1.png) -![](E:/DeepLearning-500-questions/ch06_%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C(RNN)/img/ch6/figure_6.2_2.jpg) +![](./img/ch6/figure_6.2_2.jpg) 输入单元(Input units):输入集$\bigr\{x_0,x_1,...,x_t,x_{t+1},...\bigr\}$, @@ -380,7 +380,7 @@ LSTM 拥有三个门,分别是忘记层门,输入层门和输出层门,来 LSTMs与GRUs的区别如图所示: -![](E:/DeepLearning-500-questions/ch06_%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C(RNN)/img/ch6/figure_6.6.6_2.png) +![](./img/ch6/figure_6.6.6_2.png) 从上图可以看出,二者结构十分相似,**不同在于**: @@ -541,4 +541,4 @@ GRUs是一般的RNNs的变型版本,其主要是从以下两个方面进行改 [27] https://cs.stanford.edu/people/karpathy/deepimagesent/ -[28] Cho K, Van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014. \ No newline at end of file +[28] Cho K, Van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014. diff --git a/ch07_生成对抗网络(GAN)/ch7.md b/ch07_生成对抗网络(GAN)/ch7.md index 320ac0a..683ba47 100755 --- a/ch07_生成对抗网络(GAN)/ch7.md +++ b/ch07_生成对抗网络(GAN)/ch7.md @@ -25,7 +25,7 @@ $$ $$ 这个目标函数可以分为两个部分来理解: -判别器的优化通过$\mathop {\max}\limits_D V(D,G)$实现,$V(D,G)$为判别器的目标函数,其第一项${\rm E}_{x\sim{p_{data}(x)}}[\log D(x)]$表示对于从真实数据分布 中采用的样本 ,其被判别器判定为真实样本概率的数学期望。对于真实数据分布 中采样的样本,其预测为正样本的概率当然是越接近1越好。因此希望最大化这一项。第二项${\rm E}_{z\sim{p_z}(z)}[\log (1 - D(G(z)))]$表示:对于从噪声P_z(z)分布当中采样得到的样本经过生成器生成之后得到的生成图片,然后送入判别器,其预测概率的负对数的期望,这个值自然是越大越好,这个值越大, 越接近0,也就代表判别器越好。 +判别器的优化通过$\mathop {\max}\limits_D V(D,G)$实现,$V(D,G)$为判别器的目标函数,其第一项${\rm E}_{x\sim{p_{data}(x)}}[\log D(x)]$表示对于从真实数据分布 中采用的样本 ,其被判别器判定为真实样本概率的数学期望。对于真实数据分布 中采样的样本,其预测为正样本的概率当然是越接近1越好。因此希望最大化这一项。第二项${\rm E}_{z\sim{p_z}(z)}[\log (1 - D(G(z)))]$表示:对于从噪声$P_z(z)$分布当中采样得到的样本经过生成器生成之后得到的生成图片,然后送入判别器,其预测概率的负对数的期望,这个值自然是越大越好,这个值越大, 越接近0,也就代表判别器越好。 生成器的优化通过$\mathop {\min }\limits_G({\mathop {\max }\limits_D V(D,G)})​$实现。注意,生成器的目标不是$\mathop {\min }\limits_GV(D,G)​$,即生成器**不是最小化判别器的目标函数**,生成器最小化的是**判别器目标函数的最大值**,判别器目标函数的最大值代表的是真实数据分布与生成数据分布的JS散度(详情可以参阅附录的推导),JS散度可以度量分布的相似性,两个分布越接近,JS散度越小。