﻿ 基于关键点的Anchor Free目标检测模型综述
 计算机系统应用  2020, Vol. 29 Issue (8): 1-8 PDF

Overview of Anchor Free Object Detection Model Based on Key Points
ZHENG Ting-Ting, YANG Xue, DAI Yang
School of Information Engineering, Chang’an University, Xi’an 710064, China
Abstract: Object detection is the foundation of computer vision applications. Some object detection algorithms based on anchor boxes have been unable to meet the requirements for object processing efficiency and performance in object detection, and anchor free method is gradually widely used in object detection. This article firstly introduced a series of key-based anchor free object detection methods based on the CornerNet, CenterNet, and FCOS model, and summarized the algorithm ideas, their advantages and disadvantages. Then the performance comparison and analysis of the object detection algorithm based on anchor boxes and key points were performed on the same data set. Finally, the object detection based on key points was summarized, and the future development direction of object detection was prospected.
Key words: object detection     key points     anchor free     CornerNet     CenterNet     FCOS     anchor boxes

1 基于角点的anchor free目标检测

1.1 CornerNet

Law等[4]提出了一个基于配对关键点(左上角和右下角)的目标检测方法, 算法步骤: (1)使用单个卷积神经网络Hourglass-104[4,5]预测这两个位置的热图集合来表示不同目标种类的角点位置. 在角点热图上使用非极大值抑制, 选择前k个左上角点和前k个右下角点. 该方法中还引入了角点池化, 这是一种新型的池化层, 其可以帮助网络更好的定位角点; (2)预测一个嵌入向量[6], 对每一个检测到的角点, 让属于同一类物体的对应角点之间的嵌入向量距离最小; (3)为了产生更紧凑的目标框, 预测一个偏置L1损失[7]来微调角点的位置. 该方法的流程图如图1所示.

 图 1 CornerNet流程图[4]

1.2 CornerNet-Lite

CornerNet-Saccade的算法步骤: 第一步是获取图像中可能的目标位置. (1)先把原图进行缩小和裁剪; (2)将缩小的完整图像输入到骨架网络(沙漏网络: 卷积、下采样和卷积、上采样)中预测attention maps和检测缩小后的图像中的目标并生成粗边框(两者都提出可能的对象位置). 通过使用不同尺度的特征图来预测3个attention maps, 用于小、中、大物体; (3)从预测的attention maps和粗边框中得到可能的目标位置. 第二步是检测目标. (1)对第一步(3)的可能位置中选取前k个位置, 把这k个位置与对原图裁剪得到的图片进行对应, 得到在可能的位置处检测到目标; (2)对检测的结果基于soft-NMS进行处理, 处理方式与CornerNet[4]一样, 从而得到目标物的边界框; (3)利用得到的边界框的尺寸来确定目标所在图像的缩放大小, 进行目标的合并且大小与原图一致. 在训练时, 采用与CornerNet相似的训练损失来训练网络以预测角点热图、嵌入和偏置. CornerNet-Saccade的流程图如图2所示.

CornerNet-Squeeze是CornerNet-Lite研究的另一个方案, 降低每个像素点上处理成本. 在CornerNet中, 大多数的计算都耗费在Hourglass-104[4,5]上, 非常耗时. 为了降低Hourglass-104网络的复杂度, 引入Squeeze和MobileNet的思想[10,11], 设计了一个轻量级的Hourglass-52. 训练CornerNet-Squeeze使用了与CornerNet中一样的损失函数和超参数, 唯一不同的是batch size.

Squeeze提出了3种降低网络复杂策略: (1)用1×1卷积替换3×3卷积, 减少输入通道的数量; (2)减少3×3卷积的输入通道; (3)下采样后延(此文没用到), 沙漏网络是对称的, 延迟下采样会在上采样期间产生更高分辨率的特征图, 再执行卷积, 会增加计算量.

2 基于中心点的anchor free目标检测算法

2.1 CenterNet (使用中心点和角点)

 图 3 CenterNet的流程图[9]

2.2 CenterNet (只使用中心点)

Zhou等[13]提出的基于CenterNet的将目标作为点的方法规避了低效和额外的后处理等缺点. 该方法通过其边界框中心的单个点来表示所检测的目标, 然后可以直接从中心位置的图像特征回归其他属性, 如目标大小、尺寸、3D位置、方向甚至姿势. 因此, 基于中心点的方法相对于其他基于边界框的目标检测器来说, 其具有更简单、速度更快和准确度更高的特点. 图4所示为在COCO数据集上该方法与基于框的几种方法在速度和准确度上的比较.

 图 4 几种方法比较[13]

3 基于全卷积的anchor free目标检测

Tian等[17]提出的FCOS是一种基于全卷积的单级目标检测器, 是像素级别的目标检测, 其主要思想类似于语义分割. 该方法不需要锚框, 因此其完全避开了锚框的缺点. FOCS仅凭借后处理非极大值抑制, 该方法优于之前的基于锚框的一级探测器, 其优势在于更简单、灵活, 可以提高检测的精度. 算法步骤如下: 首先, 对输入的原始图像进行预处理操作; 然后将预处理之后的数据送入主干网络中获取输入数据的feature map, 对获得的feature map上的每一像素点进行回归操作, 对网络进行训练以获得网络模型; 再将得到的模型用于测试, 利用特征金字塔网络进行多级预测, 从而得到多个head, 从多个head中可以获得预测的结果; 最后使用非极大值抑制后处理获得最终的检测结果. FCOS的流程图如图5所示.

 图 5 FCOS的流程图[17]

FCOS的新颖之处: (1)在远离目标中心的位置上会产生一些不好的框, FCOS中为了降低这些不好的结果, 引入了Center-ness分支, 即利用中心分支来抑制低质量预测边界框; (2)在网络中, 除了最后的预测层, 在卷积层中加入了组标准化GN, 使得训练更加稳定; (3) FCOS中, 特征金字塔网络中利用P5生成P6和P7, 而不是用骨干网络的C5, 这使得网络的性能得到略微的提高.

4 算法性能比较

4.1 基于锚框的目标检测算法比较

One stage检测算法中典型的算法有YOLO系列、SSD及RetinaNet等. 该类算法虽然在实际中的应用成为可能, 但是实时性和准确度还有待提高. 表2罗列了one stage算法在VOC2007和COCO数据集上的性能, “—”表示没有相关的数据.

4.2 基于关键点的anchor free目标检测算法比较

5 总结与展望

(1)从专注精度的CornerNet、CenterNet、FCOS和专注速度的CornerNet-Squeeze, anchor free目标检测未来的方向更加专注于精度和速度的结合. 同时为了提高目标的检测精度, 目前大多算法只是对单一时间、单一空间的信息进行融合, 研究者可以从多维度, 对多层级的信息进行融合以提升算法的准确度与鲁棒性.

(2)目标检测依赖大量的训练样本, 在数据标注上消费很大成本, anchor free目标检测在精度上已经有所提升, 那么如何对小规模数据的监督学习进行更有效的训练, 使其检测精度大幅度提高将会促进目标检测检测领域的进一步发展.

(3) Anchor free目标检测对已知类的检测已日趋成熟, 如何实现未知目标类的检测, 即从已知类别迁移到对未知类别的目标进行检测也将成为未来研究的热点.

 [1] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA. 2014. 580–587. [2] Fu CY, Liu W, Ranga A, et al. DSSD: Deconvolutional single shot detector. arXiv: 1701.06659, 2017. [3] Lin TY, Goyal P, Girshick R, et al. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI:10.1109/TPAMI.2018.2858826 [4] Law H, Deng J. Cornernet: Detecting objects as paired keypoints. Proceedings of the 15th European Conference on Computer Vision. Munich, Germany. 2018. 734–750. [5] Newell A, Yang KY, Deng J. Stacked hourglass networks for human pose estimation. Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands. 2016. 483–499. [6] Newell A, Huang ZA, Deng J. Associative embedding: End-to-end learning for joint detection and grouping. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, CA, USA. 2017. 2274–2284. [7] Girshick R. Fast R-CNN. Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile. 2015. 1440–1448. [8] Law H, Teng Y, Russakovsky O, et al. CornerNet-Lite: Efficient keypoint based object detection. arXiv: 1904.08900, 2019. [9] Duan KW, Bai S, Xie LX, et al. CenterNet: Keypoint triplets for object detection. arXiv: 1904.08189, 2019. [10] Iandola FN, Han S, Moskewicz MW, et al. Squeezenet: AlexNet-level accuracy with 50x fewer parameters and < 0.5 MB model size. arXiv: 1602.07360, 2016. [11] Howard AG, Zhu ML, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications. arXiv: 1704.04861, 2017. [12] Chollet F. Xception: Deep learning with depthwise separable convolutions. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. 2017. 1251–1258. [13] Zhou XY, Wang DQ, Krahenbuhl P. Objects as points. arXiv: 1904.07850, 2019. [14] Mousavian A, Anguelov D, Flynn J, et al. 3D bounding box estimation using deep learning and geometry. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. 2017. 5632–5640. [15] Cao Z, Hidalgo G, Simon T, et al. OpenPose: Realtime multi-person 2D pose estimation using Part Affinity Fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019. DOI:10.1109/TPAMI.2019.2929257 [16] Lin TY, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context. Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland. 2014. 740–755. [17] Tian Z, Shen CH, Chen H, et al. FCOS: Fully convolutional one-stage object detection. arXiv: 1904.01355, 2019.