修改内容,添加参考文献
This commit is contained in:
parent
a0482ceb13
commit
ead8ea113b
|
|
@ -5,8 +5,29 @@
|
|||
**负责人(排名不分先后):**
|
||||
上海大学研究生-陈方杰(wechat:cfj123456cfj,email:1609951733@qq.com)
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
目标检测负责人:**
|
||||
|
||||
- 稿定科技计算机视觉工程师-刘鹏
|
||||
-
|
||||
- 上海大学硕士陈方杰:微信(cfj123456ccfj)邮箱(1609951733@qq.com)
|
||||
|
||||
|
||||
|
||||
更新日志:**
|
||||
|
||||
2019.01.05(陈方杰):新增8.3节One-Stage检测算法:M2Det
|
||||
|
||||
2018.12.21(陈方杰):新增SSD系列创新点,新增YOLO系列创新点
|
||||
|
||||
2018.12.09(陈方杰):新增目标检测有哪些应用,新增FPN、Mask R-CNN、DSSD和RFBNet算法,新增目标检测Tricks,新增目标检测的常用数据集,删除RefineDet、Cascade R-CNN和FSSD,修改人脸检测章节序号
|
||||
|
||||
2018.11.18(陈方杰):修改第八章目标检测目录,新增目标检测基本概念,修改R-CNN、Fast R-CNN、RetinaNet,新增待完善论文FPN、RefineDet、RFBNet,以及新增所有论文链接。
|
||||
|
||||
2018.11.18(刘鹏):新增人脸检测部分,修改ssd-yolo系列
|
||||
|
||||
2018.11.18(刘鹏):修改SSD和YOLO系列
|
||||
|
||||
###########################################################
|
||||
|
|
@ -1,114 +1,14 @@
|
|||
[TOC]
|
||||
|
||||
**更新日志:**
|
||||
|
||||
2019.01.05(陈方杰):新增8.3节One-Stage检测算法:M2Det
|
||||
|
||||
2018.12.21(陈方杰):新增SSD系列创新点,新增YOLO系列创新点
|
||||
|
||||
2018.12.09(陈方杰):新增目标检测有哪些应用,新增FPN、Mask R-CNN、DSSD和RFBNet算法,新增目标检测Tricks,新增目标检测的常用数据集,删除RefineDet、Cascade R-CNN和FSSD,修改人脸检测章节序号
|
||||
|
||||
2018.11.18(陈方杰):修改第八章目标检测目录,新增目标检测基本概念,修改R-CNN、Fast R-CNN、RetinaNet,新增待完善论文FPN、RefineDet、RFBNet,以及新增所有论文链接。
|
||||
|
||||
2018.11.18(刘鹏):新增人脸检测部分,修改ssd-yolo系列
|
||||
|
||||
2018.11.18(刘鹏):修改SSD和YOLO系列
|
||||
|
||||
# 第八章 目标检测
|
||||
|
||||
**目标检测负责人:**
|
||||
|
||||
- 稿定科技计算机视觉工程师-刘鹏
|
||||
- 哈工大博士袁笛
|
||||
- 上海大学硕士陈方杰:微信(cfj123456ccfj)邮箱(1609951733@qq.com)
|
||||
|
||||
**目录**
|
||||
|
||||
8.1 基本概念
|
||||
|
||||
8.1.1 什么是目标检测?
|
||||
|
||||
8.1.2 目标检测要解决的核心问题?
|
||||
|
||||
8.1.3 目标检测算法分类?
|
||||
|
||||
8.1.4 目标检测有哪些应用?
|
||||
|
||||
8.2 Two Stage目标检测算法
|
||||
|
||||
8.2.1 R-CNN
|
||||
|
||||
8.2.2 Fast R-CNN
|
||||
|
||||
8.2.3 Faster R-CNN
|
||||
|
||||
8.2.4 R-FCN
|
||||
|
||||
8.2.5 FPN
|
||||
|
||||
8.2.6 Mask R-CNN
|
||||
|
||||
8.3 One Stage目标检测算法
|
||||
|
||||
8.3.1 SSD
|
||||
|
||||
8.3.2 DSSD
|
||||
|
||||
8.3.3 YOLOv1
|
||||
|
||||
8.3.4 YOLOv2
|
||||
|
||||
8.3.5 YOLO9000
|
||||
|
||||
8.3.6 YOLOv3
|
||||
|
||||
8.3.7 RetinaNet
|
||||
|
||||
8.3.8 RFBNet
|
||||
|
||||
8.3.9 M2Det
|
||||
|
||||
8.4 人脸检测
|
||||
|
||||
8.4.1 目前主要有人脸检测方法分类?
|
||||
|
||||
8.4.2 如何检测图片中不同大小的人脸?
|
||||
|
||||
8.4.3 如何设定算法检测最小人脸尺寸?
|
||||
|
||||
8.4.4 如何定位人脸的位置?
|
||||
|
||||
8.4.5 如何通过一个人脸的多个框确定最终人脸框位置?
|
||||
|
||||
8.4.6 基于级联卷积神经网络的人脸检测(Cascade CNN)
|
||||
|
||||
8.4.7 基于多任务卷积神经网络的人脸检测(MTCNN)
|
||||
|
||||
8.4.8 Facebox
|
||||
|
||||
8.5 目标检测的技巧汇总
|
||||
|
||||
8.6 目标检测的常用数据集
|
||||
|
||||
8.6.1 PASCAL VOC
|
||||
|
||||
8.6.2 MS COCO
|
||||
|
||||
8.6.3 Google Open Image
|
||||
|
||||
8.6.4 ImageNet
|
||||
|
||||
Reference
|
||||
|
||||
|
||||
|
||||
## 8.1 基本概念
|
||||
|
||||
### 8.1.1 什么是目标检测?
|
||||
|
||||
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
|
||||
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
|
||||
|
||||
计算机视觉中关于图像识别有四大类任务:
|
||||
计算机视觉中关于图像识别有四大类任务:
|
||||
|
||||
**分类-Classification**:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。
|
||||
|
||||
|
|
@ -136,41 +36,30 @@ Reference
|
|||
|
||||
**1.Two stage目标检测算法**
|
||||
|
||||
先进行区域生成(region proposal,RP)(一个有可能包含待检物体的预选框),再通过卷积神经网络进行样本分类。
|
||||
先进行区域生成(region proposal,RP)(一个有可能包含待检物体的预选框),再通过卷积神经网络进行样本分类。
|
||||
|
||||
任务:特征提取—>生成RP—>分类/定位回归。
|
||||
任务:特征提取—>生成RP—>分类/定位回归。
|
||||
|
||||
常见的two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。
|
||||
常见的two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。
|
||||
|
||||
**2.One stage目标检测算法**
|
||||
|
||||
不用RP,直接在网络中提取特征来预测物体分类和位置。
|
||||
不用RP,直接在网络中提取特征来预测物体分类和位置。
|
||||
|
||||
任务:特征提取—>分类/定位回归。
|
||||
任务:特征提取—>分类/定位回归。
|
||||
|
||||
常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。
|
||||
常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。
|
||||
|
||||

|
||||
|
||||
### 8.1.4 目标检测有哪些应用?
|
||||
|
||||
目标检测具有巨大的实用价值和应用前景。应用领域包括人脸检测、行人检测、车辆检测、飞机航拍或卫星图像中道路的检测、车载摄像机图像中的障碍物检测、医学影像在的病灶检测等。还有在安防领域中,可以实现比如安全帽、安全带等动态检测,移动侦测、区域入侵检测、物品看护等功能。
|
||||
目标检测具有巨大的实用价值和应用前景。应用领域包括人脸检测、行人检测、车辆检测、飞机航拍或卫星图像中道路的检测、车载摄像机图像中的障碍物检测、医学影像在的病灶检测等。还有在安防领域中,可以实现比如安全帽、安全带等动态检测,移动侦测、区域入侵检测、物品看护等功能。
|
||||
|
||||
## 8.2 Two Stage目标检测算法
|
||||
|
||||
### 8.2.1 R-CNN
|
||||
|
||||
**标题:《Rich feature hierarchies for accurate object detection and semantic segmentation》**
|
||||
|
||||
**时间:2014**
|
||||
|
||||
**出版源:CVPR 2014**
|
||||
|
||||
**主要链接**:
|
||||
|
||||
- arXiv:http://arxiv.org/abs/1311.2524
|
||||
- github(caffe):https://github.com/rbgirshick/rcnn
|
||||
|
||||
**R-CNN有哪些创新点?**
|
||||
|
||||
1. 使用CNN(ConvNet)对 region proposals 计算 feature vectors。从经验驱动特征(SIFT、HOG)到数据驱动特征(CNN feature map),提高特征对样本的表示能力。
|
||||
|
|
@ -180,7 +69,7 @@ Reference
|
|||
|
||||
**R-CNN 介绍**
|
||||
|
||||
R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用“深度学习”思想,而是将“深度学习”和传统的“计算机视觉”的知识相结合。比如R-CNN pipeline中的第二步和第四步其实就属于传统的“计算机视觉”技术。使用selective search提取region proposals,使用SVM实现分类。
|
||||
R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用“深度学习”思想,而是将“深度学习”和传统的“计算机视觉”的知识相结合。比如R-CNN pipeline中的第二步和第四步其实就属于传统的“计算机视觉”技术。使用selective search提取region proposals,使用SVM实现分类。
|
||||
|
||||

|
||||
|
||||
|
|
@ -206,24 +95,9 @@ R-CNN在VOC 2007测试集上mAP达到58.5%,打败当时所有的目标检测
|
|||
|
||||

|
||||
|
||||
**参考**
|
||||
|
||||
[Amusi-R-CNN论文笔记](https://github.com/amusi/paper-note/blob/master/Object-Detection/R-CNN%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0.md)
|
||||
|
||||
|
||||
### 8.2.2 Fast R-CNN
|
||||
|
||||
**标题:《Fast R-CNN》**
|
||||
|
||||
**时间:2015**
|
||||
|
||||
**出版源:ICCV 2015**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1504.08083
|
||||
- github(Official):https://github.com/rbgirshick/fast-rcnn
|
||||
|
||||
**Fast R-CNN有哪些创新点?**
|
||||
|
||||
1. 只对整幅图像进行一次特征提取,避免R-CNN中的冗余特征提取
|
||||
|
|
@ -233,7 +107,7 @@ R-CNN在VOC 2007测试集上mAP达到58.5%,打败当时所有的目标检测
|
|||
|
||||
**Fast R-CNN 介绍**
|
||||
|
||||
Fast R-CNN是基于R-CNN和[SPPnets](https://arxiv.org/abs/1406.4729)进行的改进。SPPnets,其创新点在于计算整幅图像的the shared feature map,然后根据object proposal在shared feature map上映射到对应的feature vector(就是不用重复计算feature map了)。当然,SPPnets也有缺点:和R-CNN一样,训练是多阶段(multiple-stage pipeline)的,速度还是不够"快",特征还要保存到本地磁盘中。
|
||||
Fast R-CNN是基于R-CNN和SPPnets进行的改进。SPPnets,其创新点在于计算整幅图像的the shared feature map,然后根据object proposal在shared feature map上映射到对应的feature vector(就是不用重复计算feature map了)。当然,SPPnets也有缺点:和R-CNN一样,训练是多阶段(multiple-stage pipeline)的,速度还是不够"快",特征还要保存到本地磁盘中。
|
||||
|
||||
将候选区域直接应用于特征图,并使用ROI池化将其转化为固定大小的特征图块。以下是Fast R-CNN的流程图
|
||||
|
||||
|
|
@ -284,10 +158,6 @@ RoI是Region of Interest的简写,一般是指图像上的区域框,但这
|
|||
|
||||

|
||||
|
||||
**参考**
|
||||
|
||||
[Amusi-Fast R-CNN论文笔记](https://github.com/amusi/paper-note/blob/master/Object-Detection/Fast-R-CNN%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0.md)
|
||||
|
||||
### 8.2.3 Faster R-CNN
|
||||
|
||||
**标题:《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》**
|
||||
|
|
@ -338,17 +208,6 @@ Faster R-CNN使用更多的锚点。它部署9个锚点框:3个不同宽高比
|
|||
|
||||
### 8.2.4 R-FCN
|
||||
|
||||
**标题:《R-FCN: Object Detection via Region-based Fully Convolutional Networks》**
|
||||
|
||||
**时间:2016**
|
||||
|
||||
**出版源:NIPS 2016**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1605.06409
|
||||
- github(Official):https://github.com/daijifeng001/r-fcn
|
||||
|
||||
**R-FCN有哪些创新点?**
|
||||
|
||||
R-FCN 仍属于two-stage 目标检测算法:RPN+R-FCN
|
||||
|
|
@ -394,16 +253,6 @@ ResNet-101+R-FCN:83.6% in PASCAL VOC 2007 test datasets
|
|||
图8.2.7
|
||||
### 8.2.5 FPN
|
||||
|
||||
**标题:《Feature Pyramid Networks for Object Detection》**
|
||||
|
||||
**时间:2016**
|
||||
|
||||
**出版源:CVPR 2017**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1612.03144
|
||||
|
||||
**FPN有哪些创新点?**
|
||||
|
||||
1. 多层特征
|
||||
|
|
@ -468,19 +317,6 @@ Top-town pathway是上采样(upsampling)过程。而later connection(横
|
|||
|
||||
### 8.2.6 Mask R-CNN
|
||||
|
||||
**标题:《Mask R-CNN》**
|
||||
|
||||
**时间:2017**
|
||||
|
||||
**出版源:ICCV 2017**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1703.06870
|
||||
|
||||
|
||||
- github(Official):https://github.com/facebookresearch/Detectron
|
||||
|
||||
**Mask R-CNN有哪些创新点?**
|
||||
|
||||
1. Backbone:ResNeXt-101+FPN
|
||||
|
|
@ -545,17 +381,6 @@ RoI Align的思路很简单:取消量化操作,使用双线性内插的方
|
|||
|
||||
### 8.3.1 SSD
|
||||
|
||||
**标题:《SSD: Single Shot MultiBox Detector》**
|
||||
|
||||
**时间:2015**
|
||||
|
||||
**出版源:ECCV 2016**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1512.02325
|
||||
- github(Official):https://github.com/weiliu89/caffe/tree/ssd
|
||||
|
||||
**SSD有哪些创新点?**
|
||||
|
||||
1. 基于Faster R-CNN中的Anchor,提出了相似的先验框(Prior box)
|
||||
|
|
@ -588,17 +413,6 @@ SSD优势是速度比较快,整个过程只需要一步,首先在图片不
|
|||
|
||||
### 8.3.2 DSSD
|
||||
|
||||
**标题:《DSSD : Deconvolutional Single Shot Detector》**
|
||||
|
||||
**时间:2017**
|
||||
|
||||
**出版源:CVPR 2017**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1701.06659
|
||||
- github(Official):https://github.com/chengyangfu/caffe/tree/dssd
|
||||
|
||||
**DSSD有哪些创新点?**
|
||||
|
||||
1. Backbone:将ResNet替换SSD中的VGG网络,增强了特征提取能力
|
||||
|
|
@ -626,17 +440,6 @@ SSD直接从多个卷积层中单独引出预测函数,预测量多达7000多
|
|||
|
||||
### 8.3.3 YOLOv1
|
||||
|
||||
**标题:《You Only Look Once: Unified, Real-Time Object Detection》**
|
||||
|
||||
**时间:2015**
|
||||
|
||||
**出版源:CVPR 2016**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:http://arxiv.org/abs/1506.02640
|
||||
- github(Official):https://github.com/pjreddie/darknet
|
||||
|
||||
**YOLOv1有哪些创新点?**
|
||||
|
||||
1. 将整张图作为网络的输入,直接在输出层回归bounding box的位置和所属的类别
|
||||
|
|
@ -705,17 +508,6 @@ YOLO将识别与定位合二为一,结构简便,检测速度快,更快的F
|
|||
|
||||
### 8.3.4 YOLOv2
|
||||
|
||||
**标题:《YOLO9000: Better, Faster, Stronger》**
|
||||
|
||||
**时间:2016**
|
||||
|
||||
**出版源:None**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1612.08242
|
||||
- github(Official):https://pjreddie.com/darknet/yolov2/
|
||||
|
||||
**YOLOv2 有哪些创新点?**
|
||||
|
||||
YOLOv1虽然检测速度快,但在定位方面不够准确,并且召回率较低。为了提升定位准确度,改善召回率,YOLOv2在YOLOv1的基础上提出了几种改进策略,如下图所示,可以看到,一些改进方法能有效提高模型的mAP。
|
||||
|
|
@ -812,17 +604,6 @@ YOLO9000使用WordTree混合目标检测数据集和分类数据集,并在其
|
|||
|
||||
### 8.3.6 YOLOv3
|
||||
|
||||
**标题:《YOLOv3: An Incremental Improvement》**
|
||||
|
||||
**时间:2018**
|
||||
|
||||
**出版源:None**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1804.02767
|
||||
- github(Official):https://github.com/pjreddie/darknet
|
||||
|
||||
YOLOv3总结了自己在YOLOv2的基础上做的一些尝试性改进,有的尝试取得了成功,而有的尝试并没有提升模型性能。其中有两个值得一提的亮点,一个是使用残差模型,进一步加深了网络结构;另一个是使用FPN架构实现多尺度检测。
|
||||
|
||||
**YOLOv3有哪些创新点?**
|
||||
|
|
@ -851,17 +632,6 @@ YOLOv3借鉴了FPN的思想,从不同尺度提取特征。相比YOLOv2,YOLOv
|
|||
|
||||
### 8.3.7 RetinaNet
|
||||
|
||||
**标题:《Focal Loss for Dense Object Detection》**
|
||||
|
||||
**时间:2017**
|
||||
|
||||
**出版源:ICCV 2017(Best Student Paper Award)**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1708.02002
|
||||
- github(Official):https://github.com/facebookresearch/Detectron
|
||||
|
||||
**研究背景**
|
||||
|
||||
- Two-Stage检测器(如Faster R-CNN、FPN)效果好,但速度相对慢
|
||||
|
|
@ -1016,18 +786,6 @@ Table1是关于RetinaNet和Focal Loss的一些实验结果。(a)是在交叉
|
|||
|
||||
### 8.3.8 RFBNet
|
||||
|
||||
**标题:《Receptive Field Block Net for Accurate and Fast Object Detection》**
|
||||
|
||||
**时间:2017**
|
||||
|
||||
**出版源:ECCV 2018**
|
||||
|
||||
**主要链接:**
|
||||
|
||||
arXiv:https://arxiv.org/pdf/1711.07767.pdf
|
||||
|
||||
github(Official):https://github.com/ruinmessi/RFBNet
|
||||
|
||||
**RFBNet有哪些创新点?**
|
||||
|
||||
1. 提出RF block(RFB)模块
|
||||
|
|
@ -1055,17 +813,6 @@ RFBNet300的整体结构如下图所示,基本上和SSD类似。RFBNet和SSD
|
|||
|
||||
### 8.3.9 M2Det
|
||||
|
||||
**标题:《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network》**
|
||||
|
||||
**时间:**2018
|
||||
|
||||
**出版源:**AAAI 2019
|
||||
|
||||
**主要链接:**
|
||||
|
||||
- arXiv:https://arxiv.org/abs/1811.04533
|
||||
- github(Official):https://github.com/qijiezhao/M2Det
|
||||
|
||||
**M2Det有哪些创新点?**
|
||||
|
||||
1. 提出了多层次特征金字塔网络(MLFPN)来构建更有效的特征金字塔,用于检测不同尺度的对象。
|
||||
|
|
@ -1282,23 +1029,23 @@ $$
|
|||
|
||||
### 8.6.1 PASCAL VOC
|
||||
|
||||
VOC数据集是目标检测经常用的一个数据集,自2005年起每年举办一次比赛,最开始只有4类,到2007年扩充为20个类,共有两个常用的版本:2007和2012。学术界常用5k的train/val 2007和16k的train/val 2012作为训练集,test 2007作为测试集,用10k的train/val 2007+test 2007和16k的train/val 2012作为训练集,test2012作为测试集,分别汇报结果。
|
||||
VOC数据集是目标检测经常用的一个数据集,自2005年起每年举办一次比赛,最开始只有4类,到2007年扩充为20个类,共有两个常用的版本:2007和2012。学术界常用5k的train/val 2007和16k的train/val 2012作为训练集,test 2007作为测试集,用10k的train/val 2007+test 2007和16k的train/val 2012作为训练集,test2012作为测试集,分别汇报结果。
|
||||
|
||||
### 8.6.2 MS COCO
|
||||
|
||||
COCO数据集是微软团队发布的一个可以用来图像recognition+segmentation+captioning 数据集,该数据集收集了大量包含常见物体的日常场景图片,并提供像素级的实例标注以更精确地评估检测和分割算法的效果,致力于推动场景理解的研究进展。依托这一数据集,每年举办一次比赛,现已涵盖检测、分割、关键点识别、注释等机器视觉的中心任务,是继ImageNet Chanllenge以来最有影响力的学术竞赛之一。
|
||||
COCO数据集是微软团队发布的一个可以用来图像recognition+segmentation+captioning 数据集,该数据集收集了大量包含常见物体的日常场景图片,并提供像素级的实例标注以更精确地评估检测和分割算法的效果,致力于推动场景理解的研究进展。依托这一数据集,每年举办一次比赛,现已涵盖检测、分割、关键点识别、注释等机器视觉的中心任务,是继ImageNet Chanllenge以来最有影响力的学术竞赛之一。
|
||||
|
||||
相比ImageNet,COCO更加偏好目标与其场景共同出现的图片,即non-iconic images。这样的图片能够反映视觉上的语义,更符合图像理解的任务要求。而相对的iconic images则更适合浅语义的图像分类等任务。
|
||||
|
||||
COCO的检测任务共含有80个类,在2014年发布的数据规模分train/val/test分别为80k/40k/40k,学术界较为通用的划分是使用train和35k的val子集作为训练集(trainval35k),使用剩余的val作为测试集(minival),同时向官方的evaluation server提交结果(test-dev)。除此之外,COCO官方也保留一部分test数据作为比赛的评测集。
|
||||
COCO的检测任务共含有80个类,在2014年发布的数据规模分train/val/test分别为80k/40k/40k,学术界较为通用的划分是使用train和35k的val子集作为训练集(trainval35k),使用剩余的val作为测试集(minival),同时向官方的evaluation server提交结果(test-dev)。除此之外,COCO官方也保留一部分test数据作为比赛的评测集。
|
||||
|
||||
### 8.6.3 Google Open Image
|
||||
|
||||
Open Image是谷歌团队发布的数据集。最新发布的Open Images V4包含190万图像、600个种类,1540万个bounding-box标注,是当前最大的带物体位置标注信息的数据集。这些边界框大部分都是由专业注释人员手动绘制的,确保了它们的准确性和一致性。另外,这些图像是非常多样化的,并且通常包含有多个对象的复杂场景(平均每个图像 8 个)。
|
||||
Open Image是谷歌团队发布的数据集。最新发布的Open Images V4包含190万图像、600个种类,1540万个bounding-box标注,是当前最大的带物体位置标注信息的数据集。这些边界框大部分都是由专业注释人员手动绘制的,确保了它们的准确性和一致性。另外,这些图像是非常多样化的,并且通常包含有多个对象的复杂场景(平均每个图像 8 个)。
|
||||
|
||||
### 8.6.4 ImageNet
|
||||
|
||||
ImageNet是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。ImageNet是美国斯坦福的计算机科学家,模拟人类的识别系统建立的。能够从图片识别物体。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
|
||||
ImageNet是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。ImageNet是美国斯坦福的计算机科学家,模拟人类的识别系统建立的。能够从图片识别物体。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
|
||||
|
||||
## TODO
|
||||
|
||||
|
|
@ -1308,7 +1055,7 @@ ImageNet是一个计算机视觉系统识别项目, 是目前世界上图像
|
|||
- [ ] 完善目标检测的技巧汇总
|
||||
- [ ] 目标检测的现在难点和未来发展
|
||||
|
||||
## Reference
|
||||
## 参考文献
|
||||
|
||||
https://github.com/amusi/awesome-object-detection
|
||||
|
||||
|
|
@ -1320,4 +1067,32 @@ https://www.zhihu.com/question/272322209/answer/482922713
|
|||
|
||||
http://blog.leanote.com/post/afanti.deng@gmail.com/b5f4f526490b
|
||||
|
||||
https://blog.csdn.net/hw5226349/article/details/78987385
|
||||
https://blog.csdn.net/hw5226349/article/details/78987385
|
||||
|
||||
[1] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.
|
||||
|
||||
[2] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.
|
||||
|
||||
[3] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916.
|
||||
|
||||
[4] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
|
||||
|
||||
[5] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.
|
||||
|
||||
[6] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.
|
||||
|
||||
[7] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
|
||||
|
||||
[8] Fu C Y, Liu W, Ranga A, et al. Dssd: Deconvolutional single shot detector[J]. arXiv preprint arXiv:1701.06659, 2017.
|
||||
|
||||
[9] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
|
||||
|
||||
[10] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263-7271.
|
||||
|
||||
[11] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
|
||||
|
||||
[12] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
|
||||
|
||||
[13] Liu S, Huang D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 385-400.
|
||||
|
||||
[14] Zhao Q, Sheng T, Wang Y, et al. M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network[J]. arXiv preprint arXiv:1811.04533, 2018.
|
||||
Loading…
Reference in New Issue