Update 第五章卷积神经网络（CNN）（修改版）.md

2018-11-13 17:40:39 +08:00 · 2018-11-13 17:40:39 +08:00 · 106bf2de74
parent 581e5a8332
commit 106bf2de74
1 changed files with 38 additions and 4 deletions
--- a/ch05_卷积神经网络(CNN)/第五章卷积神经网络（CNN）（修改版）.md
+++ b/ch05_卷积神经网络(CNN)/第五章卷积神经网络（CNN）（修改版）.md
@ -2,7 +2,9 @@

 标签（空格分隔）： 原创性 深度学习 协作
 卷积神经网络负责人：
+
 重庆大学研究生-刘畅  787913208@qq.com；
+
 铪星创新科技联合创始人-杨文英；

 # 第五章 卷积神经网络（CNN）
@ -97,7 +99,9 @@

 ### 5.4.4 可分离卷积
 在一个可分离卷积中，我们可以将内核操作拆分成多个步骤。我们用y = conv（x，k）表示卷积，其中y是输出图像，x是输入图像，k是核大小。这一步很简单。接下来，我们假设k可以由下面这个等式计算得出：k = k1.dot（k2）。这将使它成为一个可分离的卷积，因为我们可以通过对k1和k2做2个一维卷积来取得相同的结果，而不是用k做二维卷积。
+
 ![image](./img/ch5/img11.png)
+
 以图像处理中的Sobel算子为例。你可以通过乘以向量[1，0，-1]和[1,2,1] .T获得相同的核大小。在执行相同的操作时，你只需要6个参数，而不是9个。上面的示例显示了所谓的空间可分离卷积。即将一个二维的卷积分离成两个一维卷积的操作。在神经网络中，为了减少网络参数，加速网络运算速度。我们通常使用的是一种叫深度可分离卷积的神经网络。
 ## 5.5 图解12种不同类型的2D卷积？

@ -106,9 +110,11 @@ http://www.sohu.com/a/159591827_390227
 ## 5.6 2D卷积与3D卷积有什么区别？（重庆大学研究生-刘畅）
 ### 5.6.1 2D卷积
 二维卷积操作如图所示，为了更直观的说明，分别展示了单通道和多通道的操作。假定只使用了1个滤波器，即输出图像只有一个channel。其中，针对单通道，输入图像的channel为1，卷积核尺寸为 (k_h, k_w, 1)，卷积核在输入图像的空间维度上进行滑窗操作，每次滑窗和 (k_h, k_w)窗口内的值进行卷积操作，得到输出图像中的一个值。针对多通道，假定输入图像的channel为3，卷积核尺寸则为 (k_h, k_w, 3)，则每次滑窗与3个channels上的 (k_h, k_w)窗口内的所有值进行卷积操作，得到输出图像中的一个值。
+
 ![image](./img/ch5/img12.png)
 ### 5.6.2 3D卷积
 3D卷积操作如图所示，同样分为单通道和多通道，且假定只使用1个滤波器，即输出图像仅有一个channel。其中，针对单通道，与2D卷积不同之处在于，输入图像多了一个length维度，卷积核也多了一个k_l维度，因此3D卷积核的尺寸为（k_h, k_w, k_l)，每次滑窗与 (k_h, k_w, k_l)窗口内的值进行相关操作，得到输出3D图像中的一个值.针对多通道，则与2D卷积的操作一样，每次滑窗与3个channels上的 (k_h, k_w, k_l) 窗口内的所有值进行相关操作，得到输出3D图像中的一个值。
+
 ![image](./img/ch5/img13.png)

 ## 5.7 有哪些池化方法？（重庆大学研究生-刘畅）
@ -116,37 +122,48 @@ http://www.sohu.com/a/159591827_390227

 ### 5.7.1 一般池化（General Pooling）
 池化操作与卷积操作不同，过程如下图。
+
 ![image](./img/ch5/img14.png)
 池化操作过程如图所示，对固定区域的特征，使用某一个值来表示。最常见的池化操作有两种，分为平均池化mean pooling和最大池化max pooling
+
 1、平均池化：计算图像区域的平均值作为该区域池化后的值。
+
 2、最大池化：选图像区域的最大值作为该区域池化后的值。
+
 上述的池化过程，相邻的池化窗口间没有重叠部分。
 ### 5.7.2 重叠池化（General Pooling）
 重叠池化即是一种相邻池化窗口之间会有重叠区域的池化技术。论文中[2]中，作者使用了重叠池化，其他的设置都不变的情况下，top-1和top-5 的错误率分别减少了0.4% 和0.3%。
 ### 5.7.3 空金字塔池化（Spatial Pyramid Pooling）
 空间金字塔池化可以将任意尺度的图像卷积特征转化为相同维度，这不仅可以让CNN处理任意尺度的图像，还能避免cropping和warping操作，导致一些信息的丢失。一般的卷积神经网络都需要固定输入图像大小，这是因为全连接层的输入需要固定输入维度，但在卷积操作时并没有对图像大小有限制，所以作者提出了空间金字塔池化方法，先让图像进行卷积操作，然后使用SPP方法转化成维度相同的特征，最后输入到全连接层。
+
 ![image](./img/ch5/img17.png)
+
 根据论文作者所述，空间金字塔池化的思想来自于Spatial Pyramid Model,它是将一个pooling过程变成了多个尺度的pooling。用不同大小的池化窗口作用于卷积特征，这样就可以得到1X1,2X2,4X4的池化结果，由于conv5中共有256个滤波器，所以得到1个256维的特征，4个256个特征，以及16个256维的特征，然后把这21个256维特征链接起来输入全连接层，通过这种方式把不同大小的图像转化成相同维度的特征。
+
 ![image](./img/ch5/img18.png)
+
 对于不同的图像，如果想要得到相同大小的pooling结果，就需要根据图像大小动态的计算池化窗口大小和步长。假设conv5输出的大小为a*a，需要得到n*n大小的池化结果，可以让窗口大小sizeX为[a/n]，步长为[a/n]。下图展示了以conv5输出大小是13*13为例，spp算法的各层参数。
+
 ![image](./img/ch5/img19.png)

 总结来说，SPP方法其实就是一种使用多个尺度的池化方法，可以获取图像中的多尺度信息。在卷积神经网络中加入SPP后，可以让CNN处理任意大小的输入，这让模型变得更加的灵活。

 ## 5.8 1x1卷积作用？（重庆大学研究生-刘畅）
 1×1的卷积主要有以下两个方面的作用：
+
 1. 实现信息的跨通道交互和整合。
+
 2. 对卷积核通道数进行降维和升维，减小参数量。
 
 下面详细解释一下：
 **第一点 实现信息的跨通道交互和整合**
 对1×1卷积层的探讨最初是出现在NIN的结构，论文作者的动机是利用MLP代替传统的线性卷积核，从而提高网络的表达能力。文中从跨通道池化的角度进行解释，认为文中提出的MLP其实等价于在传统卷积核后面接cccp层，从而实现多个feature map的线性组合，实现跨通道的信息整合。而查看代码实现，cccp层即等价于1×1卷积层。
 **第二点 对卷积核通道数进行降维和升维，减小参数量**
-1x1卷积层能带来降维和升维的效果，在一系列的GoogLeNet中体现的最明显。对于每一个Inception模块（如下图），左图是原始模块，右图是加入1×1卷积进行降维的模块。虽然左图的卷积核都比较小，但是当输入和输出的通道数很大时，卷积核的参数量也会变的很大，而右图加入1×1卷积后可以降低输入的通道数，因此卷积核参数、运算复杂度也就大幅度下降。以GoogLeNet的3a模块为例，输入的feature map是28×28×192，3a模块中1×1卷积通道为64，3×3卷积通道为128,5×5卷积通道为32，如果是左图结构，那么卷积核参数为1×1×192×64+3×3×192×128+5×5×192×32，而右图对3×3和5×5卷积层前分别加入了通道数为96和16的1×1卷积层，这样卷积核参数就变成了1×1×192×64+（1×1×192×96+3×3×96×128）+（1×1×192×16+5×5×16×32），参数大约减少到原来的三分之一。同时在并行pooling层后面加入1×1卷积层后也可以降低输出的feature map数量，
-左图pooling后feature map是不变的，再加卷积层得到的feature map，
-会使输出的feature map扩大到416，如果每个模块都这样，网络的输出会越来越大。而右图在pooling后面加了通道数为32的1×1卷积，使得输出的feature map数降到了256。GoogLeNet利用1×1的卷积降维后，得到了更为紧凑的网络结构，虽然总共有22层，但是参数数量却只是8层AlexNet的十二分之一，当然其中也有丢掉全连接层的原因。
+1x1卷积层能带来降维和升维的效果，在一系列的GoogLeNet中体现的最明显。对于每一个Inception模块（如下图），左图是原始模块，右图是加入1×1卷积进行降维的模块。虽然左图的卷积核都比较小，但是当输入和输出的通道数很大时，卷积核的参数量也会变的很大，而右图加入1×1卷积后可以降低输入的通道数，因此卷积核参数、运算复杂度也就大幅度下降。以GoogLeNet的3a模块为例，输入的feature map是28×28×192，3a模块中1×1卷积通道为64，3×3卷积通道为128,5×5卷积通道为32，如果是左图结构，那么卷积核参数为1×1×192×64+3×3×192×128+5×5×192×32，而右图对3×3和5×5卷积层前分别加入了通道数为96和16的1×1卷积层，这样卷积核参数就变成了1×1×192×64+（1×1×192×96+3×3×96×128）+（1×1×192×16+5×5×16×32），参数大约减少到原来的三分之一。同时在并行pooling层后面加入1×1卷积层后也可以降低输出的feature map数量，左图pooling后feature map是不变的，再加卷积层得到的feature map，会使输出的feature map扩大到416，如果每个模块都这样，网络的输出会越来越大。而右图在pooling后面加了通道数为32的1×1卷积，使得输出的feature map数降到了256。GoogLeNet利用1×1的卷积降维后，得到了更为紧凑的网络结构，虽然总共有22层，但是参数数量却只是8层AlexNet的十二分之一，当然其中也有丢掉全连接层的原因。
+
 ![image](./img/ch5/img20.png)
 而非常经典的ResNet结构，同样也使用了1×1卷积，并且是在3×3卷积层的前后都使用了，不仅进行了降维，还进行了升维，使得卷积层的输入和输出的通道数都减小，参数数量进一步减少，如下图结构所示。
+
 ![image](./img/ch5/img21.png)

 ## 5.9 卷积层和池化层有什么区别？
@ -179,7 +196,6 @@ http://www.sohu.com/a/159591827_390227

 总而言之，我们多倾向于选择多个相对小的卷积核来进行卷积。

-
 ## 5.11 每层卷积是否只能用一种尺寸的卷积核？
 经典的神经网络，都属于层叠式网络，并且每层仅用一个尺寸的卷积核，例如VGG结构中使用了大量的3×3卷积层。事实上，同一层feature map可以分别使用多个不同尺寸的卷积核，以获得不同尺度的特征，再把这些特征结合起来，得到的特征往往比使用单一卷积核的要好，例如GoogLeNet、Inception系列的网络，均是每层使用了多个卷积核结构。如下图所示，输入的feature map在同一层，分别经过1×1、3×3、5×5三种不同尺寸的卷积核，再将分别得到的特征进行组合。
 ![image](./img/ch5/img24.png)
@ -450,9 +466,13 @@ CNN的训练主要是在卷积层和子采样层的交互上，其主要的计

 ## 5.24 卷积神经网络的经验参数设置（重庆大学研究生-刘畅）
 对于卷积神经网络的参数设置，没有很明确的指导原则，以下仅是一些经验集合。
+
 1、learning-rate 学习率：学习率越小，模型收敛花费的时间就越长，但是可以逐步稳健的提高模型精确度。一般初始设置为0.1，然后每次除以0.2或者0.5来改进，得到最终值；
+
 2、batch-size 样本批次容量：影响模型的优化程度和收敛速度，需要参考你的数据集大小来设置，具体问题具体分析，一般使用32或64，在计算资源允许的情况下，可以使用大batch进行训练。有论文提出，大batch可以加速训练速度，并取得更鲁棒的结果；
+
 3、weight-decay 权重衰减：用来在反向传播中更新权重和偏置，一般设置为0.005或0.001；
+
 4、epoch-number 训练次数：包括所有训练样本的一个正向传递和一个反向传递，训练至模型收敛即可；（注：和迭代次数iteration不一样）
 总之，不是训练的次数越多，测试精度就会越高。会有各种原因导致过拟合，比如一种可能是预训练的模型太复杂，而使用的数据集样本数量太少，种类太单一。

@ -617,14 +637,18 @@ dropout的基本思想就是在训练网络时随机的移除单独的激活值
 我们首先了解一个概念，感受野，即每个神经元仅与输入神经元相连接的一块区域。
 在图像卷积操作中，神经元在空间维度上是局部连接，但在深度上是全连接。局部连接的思想，是受启发于生物学里的视觉系统结构，视觉皮层的神经元就是仅用局部接受信息。对于二维图像，局部像素关联性较强。这种局部连接保证了训练后的滤波器能够对局部特征有最强的响应，使神经网络可以提取数据的局部特征；
 下图是一个很经典的图示，左边是全连接，右边是局部连接。
+
 ![image](./img/ch5/img63.png)
+
 对于一个1000 × 1000的输入图像而言，如果下一个隐藏层的神经元数目为10^6个，采用全连接则有1000 × 1000 × 10^6 = 10^12个权值参数，如此巨大的参数量几乎难以训练；而采用局部连接，隐藏层的每个神经元仅与图像中10 × 10的局部图像相连接，那么此时的权值参数数量为10 × 10 × 10^6 = 10^8，将直接减少4个数量级。

 ### 5.27.2 权值共享
 权值共享，即计算同一深度的神经元时采用的卷积核参数是共享的。权值共享在一定程度上讲是有意义的，是由于在神经网络中，提取的底层边缘特征与其在图中的位置无关。但是在另一些场景中是无意的，如在人脸识别任务，我们期望在不同的位置学到不同的特征。
 需要注意的是，权重只是对于同一深度切片的神经元是共享的。在卷积层中，通常采用多组卷积核提取不同的特征，即对应的是不同深度切片的特征，而不同深度切片的神经元权重是不共享。相反，偏置这一权值对于同一深度切片的所有神经元都是共享的。
 权值共享带来的好处是大大降低了网络的训练难度。如下图，假设在局部连接中隐藏层的每一个神经元连接的是一个10 × 10的局部图像，因此有10 × 10个权值参数，将这10 × 10个权值参数共享给剩下的神经元，也就是说隐藏层中10^6个神经元的权值参数相同，那么此时不管隐藏层神经元的数目是多少，需要训练的参数就是这 10 × 10个权值参数（也就是卷积核的大小）。
+
 ![image](./img/ch5/img64.png)
+
 这里就体现了卷积神经网络的奇妙之处，使用少量的参数，却依然能有非常出色的性能。上述仅仅是提取图像一种特征的过程。如果要多提取出一些特征，可以增加多个卷积核，不同的卷积核能够得到图像不同尺度下的特征，称之为特征图（feature map）。

 ### 5.27.3 池化操作
@ -640,15 +664,25 @@ dropout的基本思想就是在训练网络时随机的移除单独的激活值
 ## 5.29 举例理解Local-Conv的作用（重庆大学研究生-刘畅）
 并不是所有的卷积都会进行权重共享，在某些特定任务中，会使用不权重共享的卷积。下面通过人脸这一任务来进行讲解。在读人脸方向的一些paper时，会发现很多都会在最后加入一个Local Connected Conv，也就是不进行权重共享的卷积层。总的来说，这一步的作用就是使用3D模型来将人脸对齐，从而使CNN发挥最大的效果。
 ![image](./img/ch5/img66.png)
+
 截取论文中的一部分图，经过3D对齐以后，形成的图像均是152×152，输入到上述的网络结构中。该结构的参数如下：
+
 Conv：32个11×11×3的卷积核
+
 max-pooling: 3×3，stride=2，
+
 Conv: 16个9×9的卷积核，
+
 Local-Conv: 16个9×9的卷积核，
+
 Local-Conv: 16个7×7的卷积核，
+
 Local-Conv: 16个5×5的卷积核，
+
 Fully-connected: 4096维
+
 Softmax: 4030维。
+
 前三层的目的在于提取低层次的特征，比如简单的边和纹理。其中Max-pooling层使得卷积的输出对微小的偏移情况更加鲁棒。但不能使用更多的Max-pooling层，因为太多的Max-pooling层会使得网络损失图像信息。全连接层将上一层的每个单元和本层的所有单元相连，用来捕捉人脸图像不同位置特征之间的相关性。最后使用softmax层用于人脸分类。
 中间三层都是使用参数不共享的卷积核，之所以使用参数不共享，有如下原因：