update ch08 & ch09

This commit is contained in:
ming71 2019-09-21 14:24:52 +08:00
parent 5c99a5a472
commit 3001551faf
29 changed files with 354 additions and 12 deletions

Binary file not shown.

After

Width:  |  Height:  |  Size: 213 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 80 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 48 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 218 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 445 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 224 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 315 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 145 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 93 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 261 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 305 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 3.2 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 59 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 104 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 62 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 37 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 98 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 105 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 49 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 50 KiB

View File

@ -18,6 +18,8 @@
更新日志:**
2019.9.20明奇新增DOTA数据集、目标检测的训练tricks、数据增强方法
2019.01.05陈方杰新增8.3节One-Stage检测算法M2Det
2018.12.21陈方杰新增SSD系列创新点新增YOLO系列创新点

View File

@ -355,6 +355,74 @@ RoI Align的思路很简单取消量化操作使用双线性内插的方
![](img/ch8/Mask R-CNN-04.png)
### 8.2.7 DetNet贡献者北京理工大学--明奇)
1. **Motivation**
&emsp;&emsp;这个论文的insight不错。作者在related works观察总结到很多backbone的提出都是用于挑战ImageNet分类任务后被应用到检测上来因此鲜有单独<u>针对检测任务设计的backbone</u>
&emsp;&emsp;**检测和分类有明显的区别**1不仅需要分类还需要精确的定位 2最近的检测器都是基于类似FPN结构在分类网络基础上加额外多尺度特征进行检测应对不同尺度变化的目标。这两点又是相互补充共同协助网络完成分类到检测任务的转变。例如分类任务是检测的一环所以必不可少但是传统分类采用的最高级特征定位细节不够因此很多最近网络设法用类似FPN的结构去处理尺度变化的问题就将分类较好地过渡到检测任务上了。
2. **DetNet**
2.1 **Motivation**
&emsp;&emsp;主要着眼点是**分辨率**从大目标和小目标分别阐述保持分辨率的重要性。所以DetNet也是从分辨率的保持着手解决多尺度物体的识别问题。
* Weak visibility of large objects
&emsp;&emsp;网络在较深层如P6FPNP7RetinaNet大目标的边界不明确使精确定位困难。
* Invisibility of small objects
&emsp;&emsp;小目标就很惨了,降采样容易丢。这个就不赘述了,所以只要避开降采样就能防止目标丢失,但是这种方法又会导致抽象能力不够
2.2 **DetNet Design**
&emsp;&emsp;保持分辨率有两个麻烦的问题1内存消耗大计算大 2降采样减少导致高层的抽象特征不足以很好地进行分类任务。下面设计时会同时考虑时间和高层抽象信息两点。
&emsp;&emsp;先放出DetNet的多尺度各stage的尺寸如下图 可以看到相比前两种方式DetNet在P4之后就不再进一步降采样了进行分辨率的保持。
![](img/ch8/DetNet-1.png)
&emsp;&emsp;实现细节如下图:
![](img/ch8/DetNet-2.png)
* 采用的backbone是ResNet-50改进设计了DetNet-59。
* 对bottlenecks进行了改进传统的其实不止C也包含两种即将AB的膨胀卷积换成普通卷积。AB是新的基础模块。
* 为了减少分辨率保持带来的时间和内存成本消耗通道数固定为256思考降采样和膨胀卷积都会有信息丢失这里可以想想
* DetNet也可以加FPN结构方法类似。
3. **Experiments**
&emsp;&emsp;检测和训练的细节配置就不看了。
3.1 **Main Results**
![](img/ch8/DetNet-3.png)
* 在FPN基础上明显有大物体涨点同时由于高分辨率小物体也有不错的提升。
* 膨胀卷积提供的大感受野使得分类也不逊色
![](img/ch8/DetNet-4.png)
3.2 **Results analysis**
![](img/ch8/DetNet-5.png)
* 从AP50看出高好1.7从AP80看出高了3.7。由此可以看出确实提高了检测性能。(
* 从定位性能来看,大物体的提升比小物体更多。作者认为是高分辨率解决了大物体边界模糊的问题。其实有一种解释:小目标没有大目标明显,因为膨胀卷积核降采样都会丢失小目标,只是膨胀卷积可能离散采样不至于像降采样直接给到后面没了,但是没有根本性的解决,所以小目标不大。
![](img/ch8/DetNet-6.png)
* AR指标也有类似结论
* AR50体现了小目标的查全率更好这也印证上面分析的相对降采样膨胀卷积丢失会好点。此下大目标效果虽然提升不大但是也很高了作者表示DetNet擅长找到更精确的定位目标在AR85的高指标就能看出。
* AR85看大目标丢失少说明能够像 VGG一样对大目标效果优良。关于小目标的效果平平作者认为没有必要太高因为FPN结构对小目标已经利用地很充分了这里即使不高也没事。
3.3 **Discussion**
* 关于stage
&emsp;&emsp;为了研究backbone对检测的影响首先研究stage的作用。前4个还好说和ResNet一样但是P5 P6就不同没有尺度的变化和传统意义的stage不一样了需要重新定义。这里DetNet也是类似ResNet的方法虽然没有尺度变化但是AB模块的位置还是保持了B开启一个stage~~听上去有点牵强~~。如下图认为新加的仍属于P5。
![](img/ch8/DetNet-7.png)
&emsp;&emsp;验证方法是做了实验将P6开始的block换成上图所示的A模块对比效果如下图。 发现还是加了B效果更好。但是这个stage和传统意义很不一样所以很多性质不能相提并论只是B模块的改变也不好判定什么
![](img/ch8/DetNet-8.png)
## 8.3 One Stage目标检测算法
@ -998,14 +1066,208 @@ $$
## 8.5 目标检测的技巧汇总
1. Data Augmentation
2. OHEM
3. NMSSoft NMS/ Polygon NMS/ Inclined NMS/ ConvNMS/ Yes-Net NMS/ Softer NMS
4. Multi Scale Training/Testing
5. 建立小物体与context的关系
6. 参考relation network
7. 结合GAN
8. 结合attention
### 8.5.1 Data Augmentation贡献者北京理工大学--明奇)
介绍一篇发表在Big Data上的数据增强相关的文献综述。
1. **Introduction**
* 数据增强与过拟合
验证是否过拟合的方法画出loss曲线如果训练集loss持续减小但是验证集loss增大就说明是过拟合了。
![](./img/ch8/8.5.1-1.png)
* 数据增强目的
通过数据增强实现数据更复杂的表征,从而减小验证集和训练集以及最终测试集的差距,让网络更好地学习迁移数据集上的数据分布。这也说明网络不是真正地理解数据,而是记忆数据分布。
* 数据增强的方法
1数据变换增强
包括几何变换、色彩空间变换,随机擦除,对抗训练,神经风格迁移等
2重采样增强
主要侧重于新的实例合成。如图像混合mixup特征空间的增强GAN生成图片。一张图看明白
![](./img/ch8/8.5.1-2.png)
2. **Image Data Augmentation techniques**
2.1 **Data Augmentations based on basic image manipulations**
* Geometric transformations
&emsp;&emsp;如果数据集潜在的表征能够被观察和分离,那么简单的几何变换就能取得很好的效果。对于复杂的数据集如医学影像,数据小而且训练集和测试集的偏差大,几何变换等增强的合理运用就很关键。
* Flipping
作者提到了要衡量普遍性的观点。但是这种变换对于数字数据集不具有安全性。
* Color space
主要提及的识别RGB通道上的变换将三通道图进行分离以及直方图变换增强等。颜色空间更多增强方式可以参考A Preliminary Study on Data Augmentation of Deep Learning for Image Classification
* Cropping
通常在输入图片的尺寸不一时会进行按中心的裁剪操作。裁剪某种程度上和平移操作有相似性。根据裁剪幅度变化,该操作具有一定的不安全性。
* Rotation
大幅度的旋转对数字集会有不安全性的考虑。
* Translation
平移也需要合理设计。如车站人脸检测只需要中心检测时就可以加合适的平移增强。平移后空出部分填0或者255或用高斯分布噪声。
* Noise injection
在像素上叠加高斯分布的随机噪声。
* Color space transformations
&emsp;&emsp;由于实际图像中一定存在光线偏差所以光线的增强十分有必要但是IJCV的光流文章指出3D建模的灯光增强实在是很难学习到所以对于光线增强的效果不如几何也可能因为**光线的复杂度更高,数据样本远远不够**。色彩变换十分多样如像素限制、像素矩阵变换、像素值颠倒等灰度图和彩图相比计算时间成本大大较少但是据实验效果会下降一些很明显因为特征的维度被降维了还有尝试将RGB映射到其他的色彩空间进行学习YUV,CMY.HSV等。
&emsp;&emsp;除了计算大内存消耗和时间长等缺点色彩变换也面临不安全性比如识别人脸的关键信息是黄白黑但是大量增强出红绿蓝会丢信息。颜色变换的增强方法是从色彩空间角度拟合偏置效果有限的可能性是多样的1. 真实几何多样性比颜色更简单 2. 色彩的变化多样性更多,导致增强不够反而学不好,颜色空间的欠拟合 3. **变换不安全**
* Experiment
![](./img/ch8/8.5.1-3.png)
**随机裁剪**效果最好。
2.2 **Geometric versus photometric transformations**
* Kernel filter
滤波器核在图像处理用的比较广这里提到用这种方法来增强。还提到了一种正则化增强方法PatchShuffle在一个patch内随机交换像素值使得对噪声的抵抗更强以及避免过拟合。
文章指出关于应用滤波器增强的工作尚且不多因为这种方法其实和CNN的机制是一样的这么做也许还不如直接在原始CNN上加层加深网络。
* Mixing images
~~就是那篇被ICLR拒稿的采样方法~~直接均值相加混合。
![](./img/ch8/8.5.1-4.png)
&emsp;&emsp;还有非线性的mixup裁剪如下
![](./img/ch8/8.5.1-5.png)
&emsp;&emsp;以及随机裁剪的图像混合:
![](./img/ch8/8.5.1-6.png)
&emsp;&emsp;这些混合方式是十分反人类直觉的,因此可解释性不强。只能说是可能增强了对底层低级特征如线条边缘等的鲁棒性。其实有点没有抓住关键点。
* Random erasing
随机擦除就是类似cutout的思想通过mask的遮挡使得网络能够提高遮挡情况的鲁棒性。需要手工设计的部分包括mask的大小以及生成方式。是一种比较有效的方法。这种方式也需要考量增强的安全性比如MNIST数据集8cutout后可能出问题。
![](./img/ch8/8.5.1-7.png)
* A note on combining augmentations
组合的增强方式往往是连续变化的,导致数据集的容量会迅速扩大,这对于小数据集领域来说容易发生过拟合 ,所以需要设计合理的搜索算法设计恰当的训练数据集。
2.3 **Data Augmentations based on Deep Learning**
* Feature space augmentation
之前刚看的基于SMOTE类别不平衡的过采样法来进行特征空间的插值操作进行数据增强就实验效果而言不算特别出众。
* Adversarial training
对抗样本训练可以提高鲁棒性但是实际应用中其实提高不一定明显因为自然对抗样本的数目没有那么多。而NIPS的对抗攻击大赛很多从神经网络的学习策略下手进行梯度攻击更加偏向于人为的攻击了对于普适的检测性能提高意义反而不大更强调安全需求高的场合。
* GANbased Data Augmentation
* Neural Style Transfer
不觉得这个效果会普遍很好,应该来说是针对特定域会有效(如白天黑夜),实际效果应该有限。
* Meta learning Data Augmentations
* Neural augmentation
* Smart Augmentation
两个东西差不多就是上次看到SmartAugment方法。随机采样类内图片进行通道叠加然后输出融合图像学通过梯度下降使得输出图像的类内差距减小没考虑类间关系可能也不便处理
![](./img/ch8/8.5.1-8.png)
* AutoAugment
谷歌最早做的自学习增强方法走的NAS的思路RL+RNN搜索增强空间还有后来最近发的检测增强也是大同小异基本就是换汤不换药问题在于**搜索空间太大**,复现搜索过于依赖硬件条件(~~普通实验室玩不起~~
3. **Design considerations for image Data Augmentation**
3.1 **Test-time augmentation**
&emsp;&emsp;许多都论文指出在检测阶段进行同等的数据增强能够获得较好的效果。归结可以认为是训练检测阶段的一致性。当然,这种手段时间成本太高,只在如医学影像等追求精度的关键领域可以使用。
3.2 **Curriculum learning**
&emsp;&emsp;Bengio团队早年在ICML提出的观点确实合理一开始就进行大量的增强容易导致网络不收敛。
从一个数据集学习到的数据增强也可以迁移到其他数据集。
3.3 **Resolution impact**
高清1920×1080×3或4K3840×2160×3等高分辨率图像需要更多的处理和内存来训练深度CNN。然而下一代模型更倾向于使用这样更高分辨率的图像。因为模型中常用的下采样会造成图像中信息的丢失使图像识别更困难。
研究人员发现,高分辨率图像和低分辨率图像一起训练的模型集合,比单独的任何一个模型都要好。
某个实验这里就不注明引用了在256×256图像和512×512图像上训练的模型分别获得7.96%和7.42%的top-5 error。汇总后他们的top-5 error变低为6.97%。
随着超分辨率网络的发展,将图像放大到更高的分辨率后训练模型,能够得到更好更健壮的图像分类器。
3.4 **Final dataset size**
&emsp;&emsp;数据增强的形式可以分为在线和离线增强。前者是在加载数据时增强,可能造成额外的内存消耗(现在都是数据容量不变的随机增强)。
&emsp;&emsp;此外作者提到了一个比较有意思的点:当前数据集尤其是进行增广后是十分庞大的,明显能够在一定程度上缩小数据集但是保持性能下降不多的子集效率会高得多。
3.5 **Alleviating class imbalance with Data Augmentation**
&emsp;&emsp;这也是值得借鉴的一点。通过增强在一定程度上解决类别不平衡问题。但增强需要仔细设计,否则会面对已经学习较好的类别或者场景造成过拟合等问题。
### 8.5.2 OHEM
### 8.5.3 NMSSoft NMS/ Polygon NMS/ Inclined NMS/ ConvNMS/ Yes-Net NMS/ Softer NMS
### 8.5.4 Multi Scale Training/Testing
### 8.5.5 建立小物体与context的关系
### 8.5.6 参考relation network
### 8.5.7 结合GAN
### 8.5.8 结合attention
### 8.5.9 训练tricks贡献者北京理工大学--明奇)
介绍一篇2019.2.4亚马逊挂在ArXiv的目标检测训练tricks的文章之前亚马逊发了篇分类的tricks在CVPR上
1. **Introduction**
&emsp;&emsp;上次亚马逊发了个分类的训练trick在CVPR上这次是检测的还没发表。就没什么多说的了下面直接介绍。先看效果如下其实摘要声称的5%是单阶段的yolov3的提升说明单阶段没有RoIPooling阶段很多性质确实不如两阶段因此采用trick很有必要相反两阶段本身结构优于单阶段所以外加的trick提供的如不变性等网络自身能够学习和适应就不起作用了。
![](./img/ch8/8.5.9-1.png)
2. **Bag of Freebies**
&emsp;&emsp;提出了一种基于mixup的视觉联系图像混合方法以及一些数据处理和训练策略。
2.1 **Visually Coherent Image Mixup for Object Detection**
&emsp;&emsp;先介绍图像分类中的mixup方法作用是提供了训练的正则化应用到图像上如下图将图像作简单的像素值输入mixup的凸函数中得到合成图然后将one-hot编码类似处理得到新的label。
![](./img/ch8/8.5.9-2.png)
&emsp;&emsp;技术细节:
* 相比于分类的resize为了保证检测图像不畸变影响效果作者选择直接叠加取最大的宽高空白进行灰度填充不进行缩放。
* 选择ab较大如1.5,1.5的Beta分布作为系数来混合图像作者说是相干性视觉图像的更强loss是两张图像物体的loss之和loss计算权重分别是beta分布的系数
![](./img/ch8/8.5.9-3.png)
2.2 **Classification Head Label Smoothing**
&emsp;&emsp;标签平滑在检测的分类任务常有用到最早是Inceptionv2中提出。
&emsp;&emsp;如果标签中有的是错的或者不准会导致网络过分信任标签而一起错下去。为了提高网络泛化能力避免这种错误在one-hot的label进行计算loss时真实类别位置乘以一个系数1-ee很小如0.05以0.95的概率送进去非标注的类别原来为0现在改为e=0.05送进去计算loss。网络的优化方向不变但是相比0-1label会更加平滑。
标签平滑这个讲的不错https://juejin.im/post/5a29fd4051882534af25dc92
![](./img/ch8/8.5.9-4.png)
&emsp;&emsp;这里进一步改进了一下label smooth的公式而已在原来基础上除了个类别数。
2.3 **Data Preprocessing**
&emsp;&emsp;就是数据增强没什么其他的。至于分类也是几何变换和色彩变换。这么分区别其实是是否变换label。但是将真实世界就这么简单地分解过于粗糙了。好不容易谷歌的增强考虑到了如何学习一下检测任务的增强但是也只是加了bbox_only的增强就效果而言一般而且就实际来说合理性和有效性有待商榷。
&emsp;&emsp;作者认为两阶段网络的RPN生成就是对输入的任意裁剪所以这个增强就够了这老哥膨胀了two-stage就不用裁剪的增强虽然两阶段能提供一些不变性但是用了一般来说都是更好的。
2.4 **Training Schedule Revamping**
训练策略上:余弦学习率调整+warmup
2.5 **Synchronized Batch Normalization**
跨多卡同步正则化,土豪专区,穷人退避
2.6 **Random shapes training for single-stage object detection networks**
多尺度训练每经过一定的iteration更换一种尺度。举例是yolov3的尺度范围。
## 8.6 目标检测的常用数据集
@ -1029,6 +1291,9 @@ $$
ImageNet是一个计算机视觉系统识别项目 是目前世界上图像识别最大的数据库。ImageNet是美国斯坦福的计算机科学家模拟人类的识别系统建立的。能够从图片识别物体。Imagenet数据集文档详细有专门的团队维护使用非常方便在计算机视觉领域研究论文中应用非常广几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。Imagenet数据集有1400多万幅图片涵盖2万多个类别其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
### 8.6.5 DOTA
DOTA是遥感航空图像检测的常用数据集包含2806张航空图像尺寸大约为4kx4k包含15个类别共计188282个实例其中14个主类small vehicle 和 large vehicle都是vehicle的子类。其标注方式为四点确定的任意形状和方向的四边形。航空图像区别于传统数据集有其自己的特点尺度变化性更大密集的小物体检测检测目标的不确定性。数据划分为1/6验证集1/3测试集1/2训练集。目前发布了训练集和验证集图像尺寸从800x800到4000x4000不等。
## 8.7 目标检测常用标注工具

Binary file not shown.

After

Width:  |  Height:  |  Size: 155 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 55 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 8.9 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 18 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 873 KiB

View File

@ -13,4 +13,6 @@
**贡献者(排名不分先后):**
内容贡献者可自加信息
北京理工大学--明奇
###########################################################

View File

@ -39,7 +39,6 @@
![](./img/ch9/figure_9.1.1_2.jpg)
<center>图 4</center>
### 9.3.2 FCN网络结构
FCN对图像进行像素级的分类从而解决了语义级别的图像分割semantic segmentation问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类全联接层softmax输出不同FCN可以接受任意尺寸的输入图像采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。
@ -138,7 +137,6 @@ Upsampling的操作可以看成是反卷积(deconvolutional),卷积运算的
<center>上图中的反卷积input是2×2, output是4×4。 Zero padding, non-unit strides, transposed。</center>
![](./img/ch9/figure_9.1.8_2.png)
<center>上图中的反卷积input feature map是3×3, 转化后是5×5, output是5×5</center>
### 9.2.8 跳级(skip)结构
&emsp;&emsp;
@ -199,7 +197,6 @@ Upsampling的操作可以看成是反卷积(deconvolutional),卷积运算的
![](./img/ch9/figure_9.1.10_5.png)
<center>第三次反卷积步长为8记为FCN-8s</center>
其他参数:
&emsp;&emsp;
minibatch20张图片。
@ -794,10 +791,86 @@ Cityscapes 是驾驶领域进行效果和性能测试的图像分割数据集,
![](./img/ch9/Cityscapes-01.png)
## 9.13 全景分割(贡献者:北京理工大学--明奇)
全景分割的开山之作:何恺明的*Panoptic Segmentation*
1. **Introduction**
&emsp;&emsp;语义分割通过带孔全卷积网络根据不同的stuff进行划分实例分割则是在目标检测的基础上基于检测框进行物体的分割。缺少一种框架可以将两者进行融合实现既能分割背景又能分割实例而这在自动驾驶和AR技术中大有作为。由此提出的全景分割任务能将两者进行结合。
&emsp;&emsp;全景分割的思路很直观为图像的每个像素分配语义label和类内实例id前者用于区分语义信息后者用于分割实例因此stuff不具有实例id。提出全景分割时只是启发式地将语意分割和实例分割两种任务的输出进行后处理的融合如NMS并以此建立PS任务的baseline。为了评价全景分割的质量提出panoptic quality (PQ) 标准,将背景和物体的评价纳入一个完整的框架下。示意图如下:
![](./img/ch9/9.13-1.png)
2. **Panoptic Segmentation**
* **Task format**
全景分割的标注方法:
像素级的标注标出类别label和类内实例id。如果某像素的这两个信息都能匹配则可以将该像素匹配到某个类别和实例中去类外的像素可以分配空标签即并不是所有的像素都要有语义类别。
* **Stuff and thing labels**
对于stuff和thing背景填充和物体实例的标签交集是空集并集是所有可能的label空间。这两者是互相独立不相关的很好理解像素属于那个类和它属于哪个物体不具有相关性
* **Relationship**
都是像素级的label需要为每个像素分配对应的标签。但是实例分割基于region的允许重叠的segmentation而全景分割和语义分割一样是像素级的label不允许重叠标签的出现。
* **Confidence scores**
这一点上更像语义分割而不是实例分割对于PS不需要置信分数评价分割质量。提到这个作者认为语义分割和全景分割可以直接利用人工标注的label进行对比从而评价当前mask的质量而实例分割在选择mask时评价的是分类置信度这个并没有人工标注进行参考因此难以把握。
3. **Panoptic Segmentation Metric**
&emsp;&emsp;用于衡量全景分割效果的指标应具有完备性可解释性简洁性。由是提出了PQ指标可分为两步分割匹配、在匹配上进行计算PQ。
3.1 **Segment Matching**
&emsp;&emsp;定义match预测的segmentation和gt的iou大于0.5说明两者can match。再结合全景分割的不可重叠性不难得到最多只有一个预测的segmentation可以match gt。
3.2 **PQ Computation**
&emsp;&emsp;PQ的计算类似mAP也是类内求取然后求类间的平均值以便不敏感类别不平衡。对于每一类可以根据gt与预测的segmentation分为三类下图描述
![](./img/ch9/9.13-2.png)
TP: 预测为正实际为正描述match较好的
FP: 预测为正实际为负描述match错的
FN: 预测为负实际为正描述没match出来的gt
&emsp;&emsp;通过上述三类可以计算得到PQ值公式
![](./img/ch9/9.13-3.png)
式中出去FP与FN后剩下的式子描述的是match的segmentation的平均IoU加上FP与FN是为了惩罚match失败的分割实例。
有意思的是,对上述式子进行简单的恒等变化:
![](./img/ch9/9.13-4.png)
第一项评价的是match分割的质量第二项类似于F1得分。因此可以PQ分解为
$$PQ=SQ*RQ$$
* **Void labels**
gt中可能出现两种像素标注为空的情况超出类别的像素和模糊不清的像素难以分类。在评估结果时这些空的标签不予以评估。具体而言
1在matching部分预测出为void的像素会被移出prediction并不参与IoU计算
2matching后unmatched prediction按照一般情况会计算FP FN但是对于空标签情况如果该prediction含有的void像素块超过一定匹配阈值就会被移除并不算作FP计算得分。
* **Group labels**
有时区分相同语义类别的实例个体标注比较困难因此有提出组标签的标注方法。但对于PQ计算而言
1matching部分不使用组标签而是严格区分实例
2matching后对于包含一部分相同类别像素点的unmatched predicted segments这一部分将被去除并不视作false positives
3.3 **Comparison to Existing Metrics**
* **Semantic segmentation metrics**
衡量语义分割的标准有像素级精度平均精度IoU。但是其只专注于像素级的划分不能反映物体实例级别的分割性能。
* **Instance segmentation metrics**
度量为AP主要是引入了置信度分数confidence score对检测目标进行打分。两者不是完全的隔绝实例分割也有用IoU监督的而confidence score是否能够反映mask的真实质量也有存疑过这个标准也不是固定的
* **Panoptic quality**
PQ的度量可以分解成SQ和RQSQ反映了语义分割的像素级IoU性能RQ专注于检测识别的效果因此将两者统一到一个框架下。
分割效果:
![](./img/ch9/9.13-5.png)
<br>
<br>
<hr />
TODO
- [ ] 图像分割数据集标注工具
- [ ] 图像分割评价标准
- [ ] 全景分割
- [x] 全景分割
- [ ] UNet++