Update 第五章 卷积神经网络(CNN)(修改版).md
This commit is contained in:
parent
581e5a8332
commit
106bf2de74
|
|
@ -2,7 +2,9 @@
|
|||
|
||||
标签(空格分隔): 原创性 深度学习 协作
|
||||
卷积神经网络负责人:
|
||||
|
||||
重庆大学研究生-刘畅 787913208@qq.com;
|
||||
|
||||
铪星创新科技联合创始人-杨文英;
|
||||
|
||||
# 第五章 卷积神经网络(CNN)
|
||||
|
|
@ -97,7 +99,9 @@
|
|||
|
||||
### 5.4.4 可分离卷积
|
||||
在一个可分离卷积中,我们可以将内核操作拆分成多个步骤。我们用y = conv(x,k)表示卷积,其中y是输出图像,x是输入图像,k是核大小。这一步很简单。接下来,我们假设k可以由下面这个等式计算得出:k = k1.dot(k2)。这将使它成为一个可分离的卷积,因为我们可以通过对k1和k2做2个一维卷积来取得相同的结果,而不是用k做二维卷积。
|
||||
|
||||

|
||||
|
||||
以图像处理中的Sobel算子为例。你可以通过乘以向量[1,0,-1]和[1,2,1] .T获得相同的核大小。在执行相同的操作时,你只需要6个参数,而不是9个。上面的示例显示了所谓的空间可分离卷积。即将一个二维的卷积分离成两个一维卷积的操作。在神经网络中,为了减少网络参数,加速网络运算速度。我们通常使用的是一种叫深度可分离卷积的神经网络。
|
||||
## 5.5 图解12种不同类型的2D卷积?
|
||||
|
||||
|
|
@ -106,9 +110,11 @@ http://www.sohu.com/a/159591827_390227
|
|||
## 5.6 2D卷积与3D卷积有什么区别?(重庆大学研究生-刘畅)
|
||||
### 5.6.1 2D卷积
|
||||
二维卷积操作如图所示,为了更直观的说明,分别展示了单通道和多通道的操作。假定只使用了1个滤波器,即输出图像只有一个channel。其中,针对单通道,输入图像的channel为1,卷积核尺寸为 (k_h, k_w, 1),卷积核在输入图像的空间维度上进行滑窗操作,每次滑窗和 (k_h, k_w)窗口内的值进行卷积操作,得到输出图像中的一个值。针对多通道,假定输入图像的channel为3,卷积核尺寸则为 (k_h, k_w, 3),则每次滑窗与3个channels上的 (k_h, k_w)窗口内的所有值进行卷积操作,得到输出图像中的一个值。
|
||||
|
||||

|
||||
### 5.6.2 3D卷积
|
||||
3D卷积操作如图所示,同样分为单通道和多通道,且假定只使用1个滤波器,即输出图像仅有一个channel。其中,针对单通道,与2D卷积不同之处在于,输入图像多了一个length维度,卷积核也多了一个k_l维度,因此3D卷积核的尺寸为(k_h, k_w, k_l),每次滑窗与 (k_h, k_w, k_l)窗口内的值进行相关操作,得到输出3D图像中的一个值.针对多通道,则与2D卷积的操作一样,每次滑窗与3个channels上的 (k_h, k_w, k_l) 窗口内的所有值进行相关操作,得到输出3D图像中的一个值。
|
||||
|
||||

|
||||
|
||||
## 5.7 有哪些池化方法?(重庆大学研究生-刘畅)
|
||||
|
|
@ -116,37 +122,48 @@ http://www.sohu.com/a/159591827_390227
|
|||
|
||||
### 5.7.1 一般池化(General Pooling)
|
||||
池化操作与卷积操作不同,过程如下图。
|
||||
|
||||

|
||||
池化操作过程如图所示,对固定区域的特征,使用某一个值来表示。最常见的池化操作有两种,分为平均池化mean pooling和最大池化max pooling
|
||||
|
||||
1、平均池化:计算图像区域的平均值作为该区域池化后的值。
|
||||
|
||||
2、最大池化:选图像区域的最大值作为该区域池化后的值。
|
||||
|
||||
上述的池化过程,相邻的池化窗口间没有重叠部分。
|
||||
### 5.7.2 重叠池化(General Pooling)
|
||||
重叠池化即是一种相邻池化窗口之间会有重叠区域的池化技术。论文中[2]中,作者使用了重叠池化,其他的设置都不变的情况下,top-1和top-5 的错误率分别减少了0.4% 和0.3%。
|
||||
### 5.7.3 空金字塔池化(Spatial Pyramid Pooling)
|
||||
空间金字塔池化可以将任意尺度的图像卷积特征转化为相同维度,这不仅可以让CNN处理任意尺度的图像,还能避免cropping和warping操作,导致一些信息的丢失。一般的卷积神经网络都需要固定输入图像大小,这是因为全连接层的输入需要固定输入维度,但在卷积操作时并没有对图像大小有限制,所以作者提出了空间金字塔池化方法,先让图像进行卷积操作,然后使用SPP方法转化成维度相同的特征,最后输入到全连接层。
|
||||
|
||||

|
||||
|
||||
根据论文作者所述,空间金字塔池化的思想来自于Spatial Pyramid Model,它是将一个pooling过程变成了多个尺度的pooling。用不同大小的池化窗口作用于卷积特征,这样就可以得到1X1,2X2,4X4的池化结果,由于conv5中共有256个滤波器,所以得到1个256维的特征,4个256个特征,以及16个256维的特征,然后把这21个256维特征链接起来输入全连接层,通过这种方式把不同大小的图像转化成相同维度的特征。
|
||||
|
||||

|
||||
|
||||
对于不同的图像,如果想要得到相同大小的pooling结果,就需要根据图像大小动态的计算池化窗口大小和步长。假设conv5输出的大小为a*a,需要得到n*n大小的池化结果,可以让窗口大小sizeX为[a/n],步长为[a/n]。下图展示了以conv5输出大小是13*13为例,spp算法的各层参数。
|
||||
|
||||

|
||||
|
||||
总结来说,SPP方法其实就是一种使用多个尺度的池化方法,可以获取图像中的多尺度信息。在卷积神经网络中加入SPP后,可以让CNN处理任意大小的输入,这让模型变得更加的灵活。
|
||||
|
||||
## 5.8 1x1卷积作用?(重庆大学研究生-刘畅)
|
||||
1×1的卷积主要有以下两个方面的作用:
|
||||
|
||||
1. 实现信息的跨通道交互和整合。
|
||||
|
||||
2. 对卷积核通道数进行降维和升维,减小参数量。
|
||||
|
||||
下面详细解释一下:
|
||||
**第一点 实现信息的跨通道交互和整合**
|
||||
对1×1卷积层的探讨最初是出现在NIN的结构,论文作者的动机是利用MLP代替传统的线性卷积核,从而提高网络的表达能力。文中从跨通道池化的角度进行解释,认为文中提出的MLP其实等价于在传统卷积核后面接cccp层,从而实现多个feature map的线性组合,实现跨通道的信息整合。而查看代码实现,cccp层即等价于1×1卷积层。
|
||||
**第二点 对卷积核通道数进行降维和升维,减小参数量**
|
||||
1x1卷积层能带来降维和升维的效果,在一系列的GoogLeNet中体现的最明显。对于每一个Inception模块(如下图),左图是原始模块,右图是加入1×1卷积进行降维的模块。虽然左图的卷积核都比较小,但是当输入和输出的通道数很大时,卷积核的参数量也会变的很大,而右图加入1×1卷积后可以降低输入的通道数,因此卷积核参数、运算复杂度也就大幅度下降。以GoogLeNet的3a模块为例,输入的feature map是28×28×192,3a模块中1×1卷积通道为64,3×3卷积通道为128,5×5卷积通道为32,如果是左图结构,那么卷积核参数为1×1×192×64+3×3×192×128+5×5×192×32,而右图对3×3和5×5卷积层前分别加入了通道数为96和16的1×1卷积层,这样卷积核参数就变成了1×1×192×64+(1×1×192×96+3×3×96×128)+(1×1×192×16+5×5×16×32),参数大约减少到原来的三分之一。同时在并行pooling层后面加入1×1卷积层后也可以降低输出的feature map数量,
|
||||
左图pooling后feature map是不变的,再加卷积层得到的feature map,
|
||||
会使输出的feature map扩大到416,如果每个模块都这样,网络的输出会越来越大。而右图在pooling后面加了通道数为32的1×1卷积,使得输出的feature map数降到了256。GoogLeNet利用1×1的卷积降维后,得到了更为紧凑的网络结构,虽然总共有22层,但是参数数量却只是8层AlexNet的十二分之一,当然其中也有丢掉全连接层的原因。
|
||||
1x1卷积层能带来降维和升维的效果,在一系列的GoogLeNet中体现的最明显。对于每一个Inception模块(如下图),左图是原始模块,右图是加入1×1卷积进行降维的模块。虽然左图的卷积核都比较小,但是当输入和输出的通道数很大时,卷积核的参数量也会变的很大,而右图加入1×1卷积后可以降低输入的通道数,因此卷积核参数、运算复杂度也就大幅度下降。以GoogLeNet的3a模块为例,输入的feature map是28×28×192,3a模块中1×1卷积通道为64,3×3卷积通道为128,5×5卷积通道为32,如果是左图结构,那么卷积核参数为1×1×192×64+3×3×192×128+5×5×192×32,而右图对3×3和5×5卷积层前分别加入了通道数为96和16的1×1卷积层,这样卷积核参数就变成了1×1×192×64+(1×1×192×96+3×3×96×128)+(1×1×192×16+5×5×16×32),参数大约减少到原来的三分之一。同时在并行pooling层后面加入1×1卷积层后也可以降低输出的feature map数量,左图pooling后feature map是不变的,再加卷积层得到的feature map,会使输出的feature map扩大到416,如果每个模块都这样,网络的输出会越来越大。而右图在pooling后面加了通道数为32的1×1卷积,使得输出的feature map数降到了256。GoogLeNet利用1×1的卷积降维后,得到了更为紧凑的网络结构,虽然总共有22层,但是参数数量却只是8层AlexNet的十二分之一,当然其中也有丢掉全连接层的原因。
|
||||
|
||||

|
||||
而非常经典的ResNet结构,同样也使用了1×1卷积,并且是在3×3卷积层的前后都使用了,不仅进行了降维,还进行了升维,使得卷积层的输入和输出的通道数都减小,参数数量进一步减少,如下图结构所示。
|
||||
|
||||

|
||||
|
||||
## 5.9 卷积层和池化层有什么区别?
|
||||
|
|
@ -179,7 +196,6 @@ http://www.sohu.com/a/159591827_390227
|
|||
|
||||
总而言之,我们多倾向于选择多个相对小的卷积核来进行卷积。
|
||||
|
||||
|
||||
## 5.11 每层卷积是否只能用一种尺寸的卷积核?
|
||||
经典的神经网络,都属于层叠式网络,并且每层仅用一个尺寸的卷积核,例如VGG结构中使用了大量的3×3卷积层。事实上,同一层feature map可以分别使用多个不同尺寸的卷积核,以获得不同尺度的特征,再把这些特征结合起来,得到的特征往往比使用单一卷积核的要好,例如GoogLeNet、Inception系列的网络,均是每层使用了多个卷积核结构。如下图所示,输入的feature map在同一层,分别经过1×1、3×3、5×5三种不同尺寸的卷积核,再将分别得到的特征进行组合。
|
||||

|
||||
|
|
@ -450,9 +466,13 @@ CNN的训练主要是在卷积层和子采样层的交互上,其主要的计
|
|||
|
||||
## 5.24 卷积神经网络的经验参数设置(重庆大学研究生-刘畅)
|
||||
对于卷积神经网络的参数设置,没有很明确的指导原则,以下仅是一些经验集合。
|
||||
|
||||
1、learning-rate 学习率:学习率越小,模型收敛花费的时间就越长,但是可以逐步稳健的提高模型精确度。一般初始设置为0.1,然后每次除以0.2或者0.5来改进,得到最终值;
|
||||
|
||||
2、batch-size 样本批次容量:影响模型的优化程度和收敛速度,需要参考你的数据集大小来设置,具体问题具体分析,一般使用32或64,在计算资源允许的情况下,可以使用大batch进行训练。有论文提出,大batch可以加速训练速度,并取得更鲁棒的结果;
|
||||
|
||||
3、weight-decay 权重衰减:用来在反向传播中更新权重和偏置,一般设置为0.005或0.001;
|
||||
|
||||
4、epoch-number 训练次数:包括所有训练样本的一个正向传递和一个反向传递,训练至模型收敛即可;(注:和迭代次数iteration不一样)
|
||||
总之,不是训练的次数越多,测试精度就会越高。会有各种原因导致过拟合,比如一种可能是预训练的模型太复杂,而使用的数据集样本数量太少,种类太单一。
|
||||
|
||||
|
|
@ -617,14 +637,18 @@ dropout的基本思想就是在训练网络时随机的移除单独的激活值
|
|||
我们首先了解一个概念,感受野,即每个神经元仅与输入神经元相连接的一块区域。
|
||||
在图像卷积操作中,神经元在空间维度上是局部连接,但在深度上是全连接。局部连接的思想,是受启发于生物学里的视觉系统结构,视觉皮层的神经元就是仅用局部接受信息。对于二维图像,局部像素关联性较强。这种局部连接保证了训练后的滤波器能够对局部特征有最强的响应,使神经网络可以提取数据的局部特征;
|
||||
下图是一个很经典的图示,左边是全连接,右边是局部连接。
|
||||
|
||||

|
||||
|
||||
对于一个1000 × 1000的输入图像而言,如果下一个隐藏层的神经元数目为10^6个,采用全连接则有1000 × 1000 × 10^6 = 10^12个权值参数,如此巨大的参数量几乎难以训练;而采用局部连接,隐藏层的每个神经元仅与图像中10 × 10的局部图像相连接,那么此时的权值参数数量为10 × 10 × 10^6 = 10^8,将直接减少4个数量级。
|
||||
|
||||
### 5.27.2 权值共享
|
||||
权值共享,即计算同一深度的神经元时采用的卷积核参数是共享的。权值共享在一定程度上讲是有意义的,是由于在神经网络中,提取的底层边缘特征与其在图中的位置无关。但是在另一些场景中是无意的,如在人脸识别任务,我们期望在不同的位置学到不同的特征。
|
||||
需要注意的是,权重只是对于同一深度切片的神经元是共享的。在卷积层中,通常采用多组卷积核提取不同的特征,即对应的是不同深度切片的特征,而不同深度切片的神经元权重是不共享。相反,偏置这一权值对于同一深度切片的所有神经元都是共享的。
|
||||
权值共享带来的好处是大大降低了网络的训练难度。如下图,假设在局部连接中隐藏层的每一个神经元连接的是一个10 × 10的局部图像,因此有10 × 10个权值参数,将这10 × 10个权值参数共享给剩下的神经元,也就是说隐藏层中10^6个神经元的权值参数相同,那么此时不管隐藏层神经元的数目是多少,需要训练的参数就是这 10 × 10个权值参数(也就是卷积核的大小)。
|
||||
|
||||

|
||||
|
||||
这里就体现了卷积神经网络的奇妙之处,使用少量的参数,却依然能有非常出色的性能。上述仅仅是提取图像一种特征的过程。如果要多提取出一些特征,可以增加多个卷积核,不同的卷积核能够得到图像不同尺度下的特征,称之为特征图(feature map)。
|
||||
|
||||
### 5.27.3 池化操作
|
||||
|
|
@ -640,15 +664,25 @@ dropout的基本思想就是在训练网络时随机的移除单独的激活值
|
|||
## 5.29 举例理解Local-Conv的作用(重庆大学研究生-刘畅)
|
||||
并不是所有的卷积都会进行权重共享,在某些特定任务中,会使用不权重共享的卷积。下面通过人脸这一任务来进行讲解。在读人脸方向的一些paper时,会发现很多都会在最后加入一个Local Connected Conv,也就是不进行权重共享的卷积层。总的来说,这一步的作用就是使用3D模型来将人脸对齐,从而使CNN发挥最大的效果。
|
||||

|
||||
|
||||
截取论文中的一部分图,经过3D对齐以后,形成的图像均是152×152,输入到上述的网络结构中。该结构的参数如下:
|
||||
|
||||
Conv:32个11×11×3的卷积核
|
||||
|
||||
max-pooling: 3×3,stride=2,
|
||||
|
||||
Conv: 16个9×9的卷积核,
|
||||
|
||||
Local-Conv: 16个9×9的卷积核,
|
||||
|
||||
Local-Conv: 16个7×7的卷积核,
|
||||
|
||||
Local-Conv: 16个5×5的卷积核,
|
||||
|
||||
Fully-connected: 4096维
|
||||
|
||||
Softmax: 4030维。
|
||||
|
||||
前三层的目的在于提取低层次的特征,比如简单的边和纹理。其中Max-pooling层使得卷积的输出对微小的偏移情况更加鲁棒。但不能使用更多的Max-pooling层,因为太多的Max-pooling层会使得网络损失图像信息。全连接层将上一层的每个单元和本层的所有单元相连,用来捕捉人脸图像不同位置特征之间的相关性。最后使用softmax层用于人脸分类。
|
||||
中间三层都是使用参数不共享的卷积核,之所以使用参数不共享,有如下原因:
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue