diff --git a/ch4_经典网络/modify_log.txt b/ch4_经典网络/modify_log.txt index 330454f..1388880 100644 --- a/ch4_经典网络/modify_log.txt +++ b/ch4_经典网络/modify_log.txt @@ -24,6 +24,9 @@ modify_log---->用来记录修改日志 1. 删除4.6.3,4.8.4 2. 修改4.3问题答案,添加部分论文链接 +<----qjhuang-2018-11-9----> +1. 修改部分书写错误 + 其他---->待增加 2. 修改readme内容 3. 修改modify内容 diff --git a/ch4_经典网络/第四章_经典网络.md b/ch4_经典网络/第四章_经典网络.md index 7e78952..480508e 100644 --- a/ch4_经典网络/第四章_经典网络.md +++ b/ch4_经典网络/第四章_经典网络.md @@ -421,7 +421,7 @@ figure 6' 17/8之间的特征图尺寸缩小 ![](./img/ch4/image47.png)      -Inception v4 中的Inception模块(分别为Inception A Inception B Inception C +Inception v4 中的Inception模块(分别为Inception A Inception B Inception C) ![](./img/ch4/image48.png) @@ -466,8 +466,6 @@ Inception-ResNet-v2中的reduction模块(分别为reduction A reduction B) ![](./img/ch4/image63.png) # 4.8 ResNet及其变体 -     -http://www.sohu.com/a/157818653_390227      自从AlexNet在LSVRC2012分类比赛中取得胜利之后,深度残差网络(Deep Residual Network)可以说成为过去几年中,在计算机视觉、深度学习社区领域中最具突破性的成果了。ResNet可以实现高达数百,甚至数千个层的训练,且仍能获得超赞的性能。 diff --git a/ch9_图像分割/第九章_图像分割.md b/ch9_图像分割/第九章_图像分割.md index 4da48eb..d98254b 100644 --- a/ch9_图像分割/第九章_图像分割.md +++ b/ch9_图像分割/第九章_图像分割.md @@ -219,9 +219,7 @@ learning rate:0.001。    (2) 左边的网络是收缩路径:使用卷积和maxpooling。    -(3) 右边的网络是扩张路径:使用上采样产生的特征图与左侧收缩路径对应层产生的特征图进行concatenate操作。(pooling层会丢失图像信息和降低图像分辨率且是不可逆的操作,对图像分割任务有一些影响,对图像分类任务的影响不大,为什么要做上采样? -   -因为上采样可以补足一些图片的信息,但是信息补充的肯定不完全,所以还需要与左边的分辨率比较高的图片相连接起来(直接复制过来再裁剪到与上采样图片一样大小),这就相当于在高分辨率和更抽象特征当中做一个折衷,因为随着卷积次数增多,提取的特征也更加有效,更加抽象,上采样的图片是经历多次卷积后的图片,肯定是比较高效和抽象的图片,然后把它与左边不怎么抽象但更高分辨率的特征图片进行连接)。 +(3) 右边的网络是扩张路径:使用上采样产生的特征图与左侧收缩路径对应层产生的特征图进行concatenate操作。(pooling层会丢失图像信息和降低图像分辨率且是不可逆的操作,对图像分割任务有一些影响,对图像分类任务的影响不大,为什么要做上采样?因为上采样可以补足一些图片的信息,但是信息补充的肯定不完全,所以还需要与左边的分辨率比较高的图片相连接起来(直接复制过来再裁剪到与上采样图片一样大小),这就相当于在高分辨率和更抽象特征当中做一个折衷,因为随着卷积次数增多,提取的特征也更加有效,更加抽象,上采样的图片是经历多次卷积后的图片,肯定是比较高效和抽象的图片,然后把它与左边不怎么抽象但更高分辨率的特征图片进行连接)。    (4) 最后再经过两次反卷积操作,生成特征图,再用两个1X1的卷积做分类得到最后的两张heatmap,例如第一张表示的是第一类的得分,第二张表示第二类的得分heatmap,然后作为softmax函数的输入,算出概率比较大的softmax类,选择它作为输入给交叉熵进行反向传播训练。 @@ -608,14 +606,14 @@ ScribbleSup分为两步,第一步将像素的类别信息从scribbles传播到 Graph Cut的能量函数为: $$ -\sum_{i}\psi _i\left ( y_i | X,S \right ) +\sum_{i,j}\psi _{ij}\left ( y_i,y_j,X \right ) +\sum_{i}\psi _i\left(y_i|X,S\right)+\sum_{i,j}\psi_{ij}\left(y_i,y_j,X\right) $$    在这个graph中,每个super-pixel是graph中的一个节点,相接壤的super-pixel之间有一条连接的边。这个能量函数中的一元项包括两种情况,一个是来自于scribble的,一个是来自CNN对该super-pixel预测的概率。整个最优化过程实际上是求graph cut能量函数和CNN参数联合最优值的过程: $$ -\sum_{i}\psi _i^{scr}\left ( y_i | X,S \right ) +\sum _i-logP\left(y_i | X,\theta \right)+\sum_{i,j}\psi _{ij}\left ( y_i,y_j| X \right ) +\sum_{i}\psi _i^{scr}\left(y_i|X,S\right)+\sum _i-logP\left(y_i| X,\theta\right)+\sum_{i,j}\psi _{ij}\left(y_i,y_j|X\right) $$    @@ -633,9 +631,9 @@ UC Berkeley的Deepak Pathak使用了一个具有图像级别标记的训练数 该方法把训练过程看作是有线性限制条件的最优化过程: $$ -\underset{\theta ,P}{minimize} \qquad D(P(X)||Q(X|\theta ))\\ +\underset{\theta ,P}{minimize}\qquad D(P(X)||Q(X|\theta ))\\ -subject\ to \qquad A\overrightarrow{P}\geqslant \overrightarrow{b},\sum_{X}^{ }P(X)=1 +subject\to\qquad A\overrightarrow{P}\geqslant\overrightarrow{b},\sum_{X}^{ }P(X)=1 $$