随着深度学习在目标检测领域的大规模应用, 目标检测技术的精度和速度得到迅速提高, 已被广泛应用于行人检测、人脸检测、文字检测、交通标志及信号灯检测和遥感图像检测等领域. 本文在基于调研国内外相关文献的基础上对目标检测方法进行了综述. 首先介绍了目标检测领域的研究现状以及对目标检测算法进行检验的数据集和性能指标. 对两类不同架构的目标检测算法, 基于区域建议的双阶段目标检测算法和基于回归分析的单阶段目标检测算法的一些典型算法的流程架构、性能效果、优缺点进行了详细的阐述, 还补充了一些近几年来新出现的目标检测算法, 并列出了各种算法在主流数据集上的实验结果和优缺点对比. 最后对目标检测的一些常见应用场景进行说明, 并结合当前的研究热点分析了未来发展趋势.
With the large-scale application of deep learning in the field of object detection, the accuracy and speed of object detection technology have been rapidly improved, and it has been widely used in many fields, including pedestrian detection, face detection, text detection, traffic sign and signal light detection, and remote sensing image detection. This study reviews object detection technology based on the investigation of relevant domestic and foreign literature. First, the research status of object detection as well as the datasets and performance indicators for object detection algorithm tests are introduced. In this paper, two kinds of typical object detection algorithms with different architectures, namely two-stage object detection algorithms based on region proposals and one-stage object detection algorithms based on regression analysis, are described elaborately in their process architectures, performance effect, advantages, and disadvantages. In addition, some new object detection algorithms developed in recent years have been supplemented, and the experimental results and advantages and disadvantages of various algorithms on mainstream datasets are listed. Finally, some common application scenarios of object detection are specified, and future development trends are analyzed considering current research hotspots.
目标检测的基本任务是需要判别图片中被检测的目标类别, 同时需要使用矩形边界框来确立目标的所在位置及大小, 并给出相应的置信度. 作为计算机视觉领域的一个基本问题, 目标检测也是许多计算机视觉任务如图像分割、目标追踪、图像描述的基础. 在过去的10年里, 目标检测在计算机视觉领域受到了热烈的关注, 出现了越来越多的有关目标检测的论文发表(如
2011–2020年目标检测相关论文的数量(数据来源自Google学术检索关键字“object detection”和 “detecting objects”)
深度学习方法应用到目标检测领域之前, 目标检测领域发展平缓. 在2012年的ImageNet[
目标检测领域常用数据集有PASCAL VOC[
PASCAL VOC (the PASCAL visual object classifi-cation)数据集最早于2005年发布, 最初只有4个类别, 2005–2012年每年更新一次, 主要用于图像分类、目标检测任务. 目前广泛使用的是PASCAL VOC 2007和PASCAL VOC 2012两个版本的数据集, 其中, PASCAL VOC 2007包含9 963张标注过的图片, 标注出24 640个目标物体; PASCAL VOC 2012包含11 530张图片, 标注出27 450个目标物体. 这两个数据集都包含了20个类别的数据, 主要有人、动物、交通工具、室内物品等, 并且数据集中的图像都有对应的XML文件对目标的位置和类别进行标注.
常用数据集的样本与标注
ImageNet是由斯坦福大学和普林斯顿大学根据WordNet层次结构合作组织建立起来的用于视觉对象识别软件研究的大型可视化数据库, 其中层次结构的每个节点都是由成百上千张图像组成的. ImageNet由计算机视觉领域的专业人员维护, 文档详细, 应用广泛, 已经成为计算机视觉领域图像算法性能检验的标准数据集. 数据集包含了1 400多万张图片, 2万多个类别. 其中使用最多的子数据集是ILSVRC (ImageNet large scale visual recognition challenge), 涵盖1 000个对象类别, 包含1 281 167张训练图像, 50 000张验证图像和100 000张测试图像.
MS-COCO (Microsoft common objects in context)数据集首次发布于2015年, 是由微软公司开发维护的大型图像数据集, 主要用于目标检测, 图像分割, 图像标题生成任务. 一共包含了32.8万张图片, 其中有超过20万张图片有详细标注, 包含了91个物体类别, 具有场景复杂、单张图片目标多、小目标物体多等特点, 是目前图像分割领域最大的数据集.
Open Images是谷歌团队发布的用于图像分类、目标检测、视觉关系检测、图像分割和图像描述的数据集. 2020年最新发布的Open Images V6包含900万张图片, 600种对象, 1 600万个bounding-box标注, 是目前最大的带图像位置标注的数据集. Open Images图像库中的bounding-box大部分都是由专业人员手工绘制的, 确保了标注的准确性与一致性. 图像场景复杂, 通常包含多个目标(平均每张图片8.3个).
航空遥感图像不同于传统的图像数据, 具有尺度变化大、目标小且密集、检测目标形态多样等特点. DOTA是航空遥感图像检测的常用数据集, 包含了2 806张各种尺度大小图像, 图像尺寸从800×800到4000×4000不等, 数据集划分为1/6验证集, 1/3测试集, 1/2训练集. DOTA数据集的图像全部是由领域内人士标注的, 总计15个类别188 282个目标对象.
FPPW (false positives per-window)最早是用于INRIA行人数据集[
在目标检测研究中, 常用于评价检测效果的一个标准是AP (average precision), 最初在PASCAL VOC 2007被引入, 由P-R曲线和坐标围起来的面积组成, 用于表示不同召回率下检测的平均正确性, 是对一个特定类别下目标检测器效果的评估. mAP (mean average precision)为各类别AP的平均值, 用于对所有目标类别检测的效果取平均值, 是检测性能的最终度量.
交并比(intersection over union, IoU)在目标检测的性能评价时用的非常多, 表示的是预测的边框和原图片标注的真实边框的交叠率, 是两者交集与并集的比值. 当比值为1的时候则说明预测的效果达到最佳.
检测速度代表目标检测算法与模型的计算性能, 需要在同一硬件条件下进行比较. 目标检测技术在准确度上已经有了很大的提高, 但是如果不考虑计算性能, 使用复杂的模型会对硬件的计算能力和内存要求较高, 导致部署成本大大增加. 通常目标检测的速度性能评价指标有FPS (frame per second), 代表检测器每秒可以处理的图片帧数, 数值越大代表检测速度越快. 浮点运算数(floating point operations, FLOPs)可以理解为计算量, 用来衡量算法与模型的复杂度. 模型的FLOPs与许多因素有关, 比如参数量、网络层数、选用的激活函数等. 一般情况下, 参数量低的网络运算量会比较小, 使用的内存也小, 更利于嵌入式端的部署.
目前主流的深度学习目标检测算法有两类(如
基于深度学习的目标检测算法
双阶段目标检测算法一般先使用算法(选择性搜索或者区域建议网络等)对图像提取候选框, 然后对候选框目标进行二次修正得到检测结果. 代表算法有: R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、feature pyramid networks (FPN)、Mask R-CNN.
2014年, 伯克利大学的Girshick等提出了R-CNN[
R-CNN模型
R-CNN缺点:
(1) 多阶段训练过程. 各阶段相对独立, 训练繁琐复杂.
(2) 图像易失真. 候选区域需要放缩到固定大小会导致不期望看到的几何形变.
(3) 计算开销大, 检测速度慢. 尤其对于高密度的图片, 使用选择性搜索找到的每个区域都要使用卷积神经网络提取特征.
针对R-CNN对图像进行缩放导致图像失真的问题, He等[
SPP-Net仍然存在以下问题:
1) 训练过程仍然是多阶段的, 步骤繁杂(微调网络+训练SVM+训练边框回归器).
2) 微调算法不更新SPP层之前的卷积层参数, 不能有效地调整参数权重, 限制了准确率.
3) 分类器使用SVM, 无法实现端到端训练.
结合了R-CNN和SPP-Net各自的特点, Girshick等于2015年又提出了Fast R-CNN[
Fast R-CNN的论文发布不久, 2015年Ren等[
Fast R-CNN网络结构图
Faster R-CNN目标检测框架
在2017年, Lin等[
FPN模型
2017年, He等提出Mask R-CNN[
Mask R-CNN网络结构图
双阶段目标检测算法发展迅速, 检测精度也在不断提高, 但是自身体系结构的问题限制了检测速度. 双阶段目标检测算法的骨干网络以及在主流数据集上的实验结果如
双阶段目标检测算法性能对比
算法 | 骨干网络 | 测试数据集 | mAP (%) |
R-CNN | AlexNet | PASCAL VOC 2007 | 58.5 |
SPP-Net | ZF-5 | PASCAL VOC 2007 | 59.2 |
Fast R-CNN | VGG-16 | PASCAL VOC 2007 | 68.0 |
Faster R-CNN | ResNet-101 | PASCAL VOC 2007 | 78.0 |
FPN | FPN | MS-COCO | 34.4 |
Mask R-CNN | ResNeXt-101 | MS-COCO | 39.8 |
单阶段目标检测算法与双阶段目标检测算法最大的不同之处在于前者没有候选区域推荐阶段, 训练过程也相对简单, 可以在一个阶段直接确定目标类别并得到位置检测框. 代表算法有YOLO系列、SSD系列、RetinaNet.
YOLO (you only look once)是由Redmon等于2015年提出的, 是深度学习领域第一个单级检测器[
YOLO算法虽然速度较快, 但也存在以下几个明显的缺点:
(1) YOLO划分的网格最后只会选择IoU最高的边界框作为输出, 因此划分的网格最多只会检测出一个目标, 如果网格中包含多个小型目标(如鸟群这类目标), YOLO只能检测出一个.
(2) YOLO没有解决多尺度窗口的问题, 相比Faster R-CNN, 其小目标检测效果较差, 定位准确度也不够优秀.
双阶段目标检测算法的优缺点及适用场景
算法 | 优点/创新点 | 缺点 | 适用场景 |
R-CNN | 引入卷积神经网络结合候选区域建议 | 训练复杂, 耗时, 候选区域放缩易失真 | 目标检测 |
SPP-Net | 整张图片作为输入, 实现了任意比例区域的特征提取, 减少计算量 | SPP层之前的参数无法更新, 限制了准确率, 且空间开销大 | 目标检测 |
Fast R-CNN | 引入RoI Pooling进行特征提取, 节省了检测时间和空间开销 | 候选区域提取的选择性搜索算法只能在CPU中运行, 限制了检测速度 | 目标检测 |
Faster R-CNN | 提出了区域建议网络来提取候选区域, 提高了效率 | 小目标物体检测效果不好 | 目标检测 |
FPN | 加入多层特征和特征融合, 提高了小物体的检测精度 | 多层特征融合增加了计算量 | 目标检测 |
Mask R-CNN | 使用RoI Align层减少了特征图与原始图的偏差 | Mask分支增加了计算开销 | 目标检测, 图像分割 |
YOLO网络流程图
YOLOv2[
YOLOv3[
YOLOv4[
Liu等[
SSD300网络结构图
DSSD[
FSSD[
单阶段目标检测器虽然在速度上明显快于基于候选区域推荐的双阶段目标检测器, 但是其精度上却一直无法媲美双阶段目标检测器. Lin等认为导致一体化卷积神经网络精度不够高的真正原因在于图像中的目标和背景层次的不匹配不均衡, 于是在2017年提出了RetinaNet[
RetinaNet模型
单阶段目标检测算法提出虽然晚于双阶段目标检测算法, 但是由于其结构相对简单、检测速度优越, 因此同样受到了许多研究人员的关注. 一些单阶段目标检测算法通过引入双阶段目标检测算法的方法如FPN、改变骨干网络、引入损失函数如focal loss等措施提高了检测效果, 使检测精度逐渐可以媲美双阶段目标检测算法. 单阶段目标检测算法的骨干网络以及在主流数据集上的实验结果如
单阶段目标检测算法性能对比
算法 | 骨干网络 | 测试数据集 | mAP (%) |
YOLO | VGG-16 | PASCAL VOC 2007 | 63.4 |
PASCAL VOC 2012 | 57.9 | ||
YOLOv2 | Darknet-19 | PASCAL VOC 2007 | 78.6 |
YOLOv3 | Darknet-53 | MS-COCO | 31.0 |
YOLOv4 | CSPDarknet-53 | MS-COCO | 43.5 |
SSD | VGG-16 | PASCAL VOC 2007 | 79.8 |
PASCAL VOC 2012 | 78.5 | ||
MS-COCO | 28.8 | ||
DSSD | ResNet-101 | PASCAL VOC 2007 | 81.5 |
PASCAL VOC 2012 | 80.0 | ||
MS-COCO | 33.2 | ||
FSSD | VGGNet | PASCAL VOC 2007 | 82.7 |
PASCAL VOC 2012 | 82.0 | ||
MS-COCO | 31.8 | ||
RetinaNet | ResNet-101 | MS-COCO | 34.4 |
2019年, 谷歌大脑团队提出了NAS-FPN (neural architecture search feature pyramid network)[
随着目标检测技术的不断进步, 先进的目标检测器所需的硬件资源也越来越昂贵. 针对不同场景下的资源约束, 谷歌团队在2019年11月发表的论文中提出了EfficientDet[
之前的研究一般认为FPN的主要功能是可以进行多级特征的融合, 因此大多数学者的研究重点都在于实现可以更加高效地进行特征融合的网络, 如NAS-FPN和EfficientDet中的BiFPN, 而忽视了FPN的另一个重要特性: 分治策略. 基于分治优化的思想, Chen等[
除了一些经典的目标检测算法, 近年来通过应用深度学习领域的新方法新技术, 出现了一些检测精度和速度都较高的目标检测算法. 这些检测算法的骨干网络以及在主流数据集上的实验结果如
单阶段目标检测算法的优缺点及适用场景
算法 | 优点/创新点 | 缺点 | 适用场景 |
YOLO | 使用网格预测, 检测速度非常快 | 对密集和小目标检测效果不理想 | 目标检测 |
YOLOv2 | 使用聚类的方式生成锚框, 分类精度高 | 预训练的方式导致难以迁移 | 目标检测 |
YOLOv3 | 通过残差网络解决多尺度问题, 提高了小目标物体检测精度 | 模型复杂度高, 对中、大尺度物体检测效果有所降低 | 多尺度目标检测 |
YOLOv4 | 检测速度和精度达到了很好的平衡 | 模型复杂度高 | 高精度实时目标检测 |
SSD | 引入了多参考和多分辨率检测技术 | 模型难以收敛 | 多尺度目标检测 |
DSSD | 骨干网络使用了ResNet-101, 增加了反卷积模块, 提升了小目标检测效果 | 与SSD相比检测速度较慢 | 目标检测 |
FSSD | 重构金字塔特征图以融合不同尺度特征, 有利于小目标检测 | 与SSD相比计算开销大, 检测速度较慢 | 多尺度目标检测 |
RetinaNet | Focal Loss的引入解决了实例样本不平衡的问题 | 无法适应密集样本训练 | 轻量级目标检测 |
最新出现的目标检测算法性能对比
算法 | 骨干网络 | 测试数据集 | mAP (%) |
NAS-FPN | ResNet-50 | MS-COCO | 48.3 |
EfficientDet | AmoebaNet | MS-COCO | 55.1 |
YOLOF | ResNet-50 | MS-COCO | 44.3 |
目标检测技术经过长时间的发展, 已经在许多领域得到了广泛的应用, 主要包括行人检测、人脸检测、文本检测、交通标志及信号灯检测和遥感图像检测等重要领域.
最新出现的目标检测算法的优缺点及适用场景
算法 | 优点/创新点 | 缺点 | 适用场景 |
NAS-FPN | 使用神经网络结构调整特征金字塔结构 | 训练模型较为繁琐, 耗时较长 | 目标检测 |
EfficientDet | 使用加权双向特征金字塔网络进行特征融合. 通过复合特征金字塔网络缩放模型, 减少了计算量 | 模型难以理解 | 目标检测, 图像分割 |
YOLOF | 设计了膨胀编码器和均衡匹配策略提高了检测性能. 没有Transformer层, 减少了训练次数 | 设置的anchor比较稀疏, 推理阶段不够灵活 | 目标检测 |
行人检测(pedestrian detection)研究具有悠久的历史, 早在20世纪90年代就有学者开始研究这一问题. 行人检测的难点主要在于检测目标同时具有动态和静态的特点, 同时也受到外界环境如背景、光照的影响, 导致许多目标检测算法在应用到行人检测领域的效果并不理想. 目前主流的行人检测算法主要分为基于全局特征、基于人体部位和基于立体视觉的方法. 基于全局特征的典型算法如Dalal等[
目标检测的另一个非常常见的应用领域是人脸检测. 人脸检测的需求最初来源于人脸识别, 逐步扩展到视频处理、图像检索、生物验证等方面. 人脸检测一直以来都受到人们热切的关注, 重要的计算机视觉领域会议ICIP、CVPR等每年都会有大量有关人脸检测的论文发表. 人脸检测的主要难点在于两个方面: 一是人脸自身存在的变化, 如肤色、脸型、表情等; 二是外在条件的差异如拍摄角度、光照、图像的成像条件等. Liang等[
对于文本检测, 主要包含两个过程: 文本定位和文本识别. 文本检测的挑战在于文本有不同的字体、颜色、语言等, 除此之外文本的透视失真以及模糊离散化也增加了文本识别的难度. 目前的文本检测方法主要有步进检测和综合检测两种. 步进检测是按照一定顺序逐步推进的检测方法, 由分割字符, 候选区域提取验证, 字符组划分, 单词识别等步骤组成. 步进检测过程中可以进行背景滤波, 从而降低后续处理的难度. 但是其缺点是需要确定较适宜的参数, 否则会引起误差累积. 相比较而言, 综合检测是在统一的框架下进行文本定位、分组和识别, 因此降低了累积误差, 易于集成, 其缺点是计算开销大, 因为要对大量字符类和候选框进行运算推理. 针对文本因角度变换导致的歧义问题, Zhu等[
近些年来, 随着自动驾驶技术的火热, 交通标志及信号灯的检测也引起了许多学者的研究兴趣. 交通标志及信号灯检测的主要困难包括:
(1) 强光或夜间光照的影响;
(2) 天气如雨雪带来的干扰;
(3) 交通环境场景复杂;
(4) 车载摄像头由于运动导致拍下的画面模糊.
交通标志与灯光检测技术可以划分为两大类, 传统的检测方法和基于深度学习的检测方法. 传统的检测方法通常基于颜色, 显著性目标检测, 形态滤波, 边缘与轮廓分析, 这些方法在复杂的条件下往往会失效[
遥感目标检测技术在城市规划、军事侦察、农业生产和航空航天等领域都有着广泛的应用. 主要检测目标包括道路、机场、港口、湖泊、飞机、船舶等.
遥感图像由于其特殊性质, 存在以下困难.
(1) 视角多样. 遥感图像只能通过俯拍得到, 目标旋转方向各有不同.
(2) 尺度变化. 同一类目标由于海拔高度等原因大小可能存在差异.
(3) 背景复杂. 遥感图像背景比较多样化, 比如城市、丛林、沙漠、山地等.
最近几年, 基于深度学习的遥感目标检测也正在逐步解决这些困难. 针对遥感图像中目标较小的问题, Long等[
视频目标检测需要对视频中每一帧图片中的可能存在目标进行正确的定位和分类. 不同于图像目标, 视频中的目标存在着运动模糊、遮挡、场景变化等因素, 使得这项任务难以取得很好的效果. 对于信息密度大的视频来说, 视频存在的大量冗余对检测的实时性也是一个巨大挑战. 研究移动目标和结合时序定位视频数据的主体目标是未来研究的主要方向.
显著性目标检测研究最早开始于1998年Itti等[
2014年Goodfellow等[
基于深度学习的目标检测技术因其巨大的优势, 如泛化能力强、复杂场景下效果出众、应用前景广阔等已经成为一个计算机视觉领域的一个热门方向. 行人检测、人脸检测、文字检测、交通标志及信号灯检测和遥感图像检测等都是目标检测的常见应用场景. 通过对不同方式的目标检测算法的对比可以看出, 双阶段目标检测算法先使用算法提取候选区域, 然后对候选框目标进行二次修正, 精度较高且定位准确, 但是训练复杂计算量大, 难以实现实时检测; 单阶段目标检测算法没有候选区域推荐过程, 在一个阶段就能确定目标类别并定位目标, 模型简单且速度快, 但是对小目标和密集目标的检测精度有待提高. 近几年来, 视频目标检测、显著目标检测和基于GAN的目标检测都有良好的发展势头, 新出现的目标检测算法如NAS-FPN、EfficientDet、YOLOF等的提出也为目标检测领域的发展提供了新的思路. 随着人们对基于深度学习的目标检测技术的进一步深入, 相信其应用领域会更加广泛, 为人类的生存发展带来更加巨大的效益.
et al. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014. 580–587.]]>
Joshi KA, Thakore DG. A survey on moving object detection and tracking in video surveillances system. International Journal of Soft Computing and Engineering, 2012, 2(3): 44–48.
et al. Multi-view 3D object detection network for autonomous driving. Proceedings of the 2017 IEEE conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017. 6526–6534.]]>
Javed R, Rahim MSM, Saba T,
Everingham M , Gool L V , Williams CKI , et al. The Pascal Visual Object Classes (VOC) Challenge. International Journal of Computer Vision, 2010, 88(2):303–338.
et al. Microsoft coco: Common objects in context. Proceedings of the 13th European Conference on Computer Vision. Zurich: Springer, 2014. 740–755.]]>
Kuznetsova A, Rom H, Alldrin N,
et al. DOTA: A large-scale dataset for object detection in aerial images. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 3974–3983.]]>
et al. Object detection in 20 years: A survey. arXiv: 1905.05055, 2019.]]>
http://pascal.inrialpes.fr/data/human/.(2020-07-30)[2021-05-13].]]>
http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/. (2019-07-01)[2021-05-13].]]>
He KM, Zhang XY, Ren SQ,
et al. Faster R-CNN: Towards real-time object detection with region proposal networks. arXiv: 1506.01497, 2015.]]>
et al. Feature pyramid networks for object detection. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. 936–944.]]>
et al. Mask R-CNN. Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017. 2980–2988.]]>
et al. You only look once: Unified, real-time object detection. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016. 779–788.]]>
et al. SSD: Single Shot MultiBox detector. Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer, 2016. 21–37.]]>
et al. DSSD: Deconvolutional single shot detector. arXiv: 1701.06659, 2017.]]>
et al. Focal loss for dense object detection. Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017. 2999–3007.]]>
Shah SAR, Wu WJ, Lu QM,
et al. You only look one-level feature. arXiv: 2103.09460, 2021.]]>
et al. End-to-end object detection with transformers. Proceedings of the 16th European Conference on Computer Vision. Glasgow: Springer, 2020. 213–229.]]>
et al. Deep learning strong parts for pedestrian detection. Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015. 1904–1912.]]>
Chen ZL, Huang XM. Pedestrian detection for autonomous vehicle using multi-spectral cameras. IEEE Transactions on Intelligent Vehicles, 2019, 4(2): 211–219.
et al. Recurrent exposure generation for low-light face detection. IEEE Transactions on Multimedia, 2021: 1–14.]]>
Zhang JL, Wu XW, Hoi SCH,
Zhu YX, Du J. Textmountain: Accurate scene text detection via instance segmentation. Pattern Recognition, 2021, 110: 107336.
Liao MH, Wan ZY, Yao C,
Ai CB, Tsai YCJ. Critical assessment of an enhanced traffic sign detection method using mobile LiDAR and INS technologies. Journal of Transportation Engineering, 2015, 141(5): 04014096.
Fan BB, Yang H. Multi-scale traffic sign detection model with attention. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering, 2021, 235(2–3): 708–720.
Long Y, Gong YP, Xiao ZF,
Fu K, Chang ZH, Zhang Y,
Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254–1259.
et al. Generative adversarial nets. Advances in Neural Information Processing Systems, 2014, 27: 1–9.]]>