Merge pull request #329 from jiangjiajun/patch-2

删除重复段落
This commit is contained in:
scutan90 2019-04-11 19:58:26 +08:00 committed by GitHub
commit 36d705203a
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 0 additions and 7 deletions

View File

@ -334,13 +334,6 @@ ROI Align 是在Mask-RCNN中提出的一种区域特征聚集方式很好地
事实上经过上述两次量化此时的候选框已经和最开始回归出来的位置有一定的偏差这个偏差会影响检测或者分割的准确度。在论文里作者把它总结为“不匹配问题misalignment
在常见的两级检测框架比如Fast-RCNNFaster-RCNNR-FCNRoI Pooling 的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图以便进行后续的分类和包围框回归操作。由于预选框的位置通常是由模型回归得到的一般来讲是浮点数而池化后的特征图要求尺寸固定。故RoI Pooling这一操作存在两次量化的过程。
- 将候选框边界量化为整数点坐标值。
- 将量化后的边界区域平均分割成 k x k 个单元(bin),对每一个单元的边界进行量化。
事实上经过上述两次量化此时的候选框已经和最开始回归出来的位置有一定的偏差这个偏差会影响检测或者分割的准确度。在论文里作者把它总结为“不匹配问题misalignment
下面我们用直观的例子具体分析一下上述区域不匹配问题。如下图所示这是一个Faster-RCNN检测框架。输入一张800x800的图片图片上有一个665x665的包围框(框着一只狗)。图片经过主干网络提取特征后特征图缩放步长stride为32。因此图像和包围框的边长都是输入时的1/32。800正好可以被32整除变为25。但665除以32以后得到20.78带有小数于是RoI Pooling 直接将它量化成20。接下来需要把框内的特征池化7*7的大小因此将上述包围框平均分割成7x7个矩形区域。显然每个矩形区域的边长为2.86又含有小数。于是ROI Pooling 再次把它量化到2。经过这两次量化候选区域已经出现了较明显的偏差如图中绿色部分所示。更重要的是该层特征图上0.1个像素的偏差缩放到原图就是3.2个像素。那么0.8的偏差在原图上就是接近30个像素点的差别这一差别不容小觑。
![](img/ch8/Mask R-CNN-02.png)