计算机系统应用  2020, Vol. 29 Issue (4): 150-155   PDF    
改进的红外图像行人检测和交叠率算法
柳黎1,2, 许凯华1,2, 何伍斌1, 徐秀1     
1. 江苏如是地球空间信息科技有限公司, 宿迁 223800;
2. 江苏如是数学研究院有限公司, 宿迁 223800
摘要:行人越界入侵报警是十分普遍的应用场景, 尤其是在安保领域. 本文设计了一种改进的红外图像行人检测和交叠率算法, 两者结合可以实现对行人的越界报警. 本方法主要由三部分组成: 红外图像行人检测算法、目标分类算法、交叠率算法与报警逻辑. 红外图像是为了尽量克服环境影响, 并且在夜间也具有良好的显示与图像采集功能; 行人检测是通过YOLOv3算法和基于方向梯度直方图(HOG)特征的多层感知器(MLP)二分类来实现; 报警算法与逻辑是计算目标的候选框与报警区域的交叠率, 再进行逻辑判断. 实验表明, 本方法准确性高, 报警准确率可达91%, 有良好的应用价值.
关键词: 红外图像    行人检测    目标分类    交叠率    报警    
Improved Algorithm for Infrared Pedestrian Detection and Overlap Rate
LIU Li1,2, XU Kai-Hua1,2, HE Wu-Bin1, XU Xiu1     
1. Jiangsu Suchness Geospatial Information Technology Co. Ltd., Suqian 223800, China;
2. Jiangsu Suchness Mathematics Institute Co. Ltd., Suqian 223800, China
Foundation item: Science and Technology Project of Suqian City, Jiangsu Province (SC201801)
Abstract: In this study, we proposed an improved method of infrared pedestrian detection and overlap rate, which could be used for positioning and abnormal alarm, especially in the security industry. The method is consisted of three steps: 1) infrared pedestrian detection algorithm; 2) classification algorithm; 3) overlap rate algorithm and the logic of alarm. Infrared sensors could collect high quality image data at night, and overcome environmental interference as much as possible. Pedestrian detection was designed by YOLOv3 algorithm and Multi-Layer Perception (MLP) based on Histogram of Oriented Gradient (HOG) features. The abnormal alarms were proposed by calculating overlap rate between pedestrian detection bound and ground truth bound, and then making logical judgment. The experiments evidenced the benefits of proposed approach, which could effectively improve pedestrian detection performance and abnormal alarm accuracy (over 91%).
Key words: infrared image     pedestrian detection     classification     overlap rate     alarm    

目标识别、定位和报警是非常活跃的研究方向, 被认为是与生活紧密相关的前沿技术. 近年来, 目标定位研究取得了一些新的成果, 包括各种模型和算法. 总体而言, 这些研究成果可以分为3类: 第1类是建立空间几何关系和测距算法[1-12]; 第2类是建立位置数据库和测距算法[13-20]; 第3类是场景匹配和视觉定位[21-24]. 第1类是通过固定锚点的空间几何关系, 再测量定位节点与锚点的距离来实现定位. 这种方法的不足是无线信号在环境中存在着多径效应、信号衰落、干扰等, 计算接收信号的功率[1, 11]、相位[5, 12]、到达时间[9]往往是不准确的, 而且定位节点是有源的, 在实际应用中有难度. 第2类是通过事前在定位区域建立位置数据库, 定位时通过环境测量结果来匹配位置数据库, 从而实现定位. 这种方法的不足是建立位置数据库的工作量大, 在定位时节点的任何形态变化都会影响匹配定位的精度, 而且定位节点也是有源的. 第3类是通过视觉定位目标, 并将视觉定位与实际场景匹配, 从而实现定位. 这种方法的不足是算法复杂度高, 实时性要求严格, 优点是定位目标是无源的.

为了实现对行人目标的无源定位与越界报警, 结合上述3类方法的特点, 本文提出了结合视觉图像的行人检测与交叠率的定位报警算法. 本方法要达到较好的效果, 关键是基于红外图像的行人检测准确率, 交叠率算法和报警逻辑策略. 目前, 国内外有关学者对行人检测进行了部分研究, 提出了一些有意义的检测方法. 李盈盈等[25]通过提取HOG特征和颜色自相似性进行行人检测, 并通过Adaboost算法进行分类; 陈丽枫等[26]通过提取多尺度方向的HOG特征进行行人检测, 并通过Adaboost算法进行分类; 任克强等[27]通过提取LBP特征, 并引入灰度的全局和局部自适应阈值进行行人检测, 最后通过支持向量机(SVM)进行分类; Susutti等[28]通过构造多通道的行人特征, 并对通道加权, 组合出完整的行人特征来进行检测; 张汇等[29]基于Faster RCNN网络, 通过构建区域建议网络(RPN)和目标检测网络进行判别和分类. 这些行人检测方法和模型是基于自然光环境的下检测, 红外环境下并不适用.

目前, 基于红外图像的行人检测研究也取得了部分进展. 谭康霞[30]基于YOLO模型, 改进输入图像分辨率, 并用实际道路场景下的数据集进行训练和检测; Kim[31]通过提取人体红外图像温度特征来提高行人检测性能, 取得了不小的突破; 王姮[32]通过高斯混合模型进行图像分割, 再提取HOG特征进行检测, 并用Adaboost算法进行分类; 许茗[33]将红外图像的原图和频域特征图结合, 通过全卷积网络进行行人检测. 这些检测方法属于增加样本, 调整参数, 来提高检测准确率, 本文在设计实验过程中也有借鉴.

鉴于基于红外图像的行人检测和报警的重要意义, 本文提出了一种权衡了行人检测和报警准确率的系统设计, 并提出了动态与静态交叠率的理论与计算. 本方法主要由3部分组成: 红外图像行人检测算法、分类算法、交叠率算法与报警逻辑. 红外图像行人检测是通过改进的YOLOv3算法实现, 然后提取目标候选框的方向梯度直方图(HOG)特征并通过多层感知器(MLP)二分类来实现; 报警算法与逻辑是计算行人目标的候选框与报警区域的交叠率, 再进行逻辑判断. 实验表明, 本方法提高了红外行人检测的准确率, 通过计算交叠率判断入侵报警也较为准确, 能够满足应用需求.

1 架构设计

本文权衡了行人检测准确率和报警准确率, 提出一种改进的红外图像行人检测和交叠率算法. 首先, 通过YOLOv3算法进行红外图像的行人检测, 优化背景平衡问题. 然后, 利用方向梯度直方图(HOG)的几何不变性, 提取目标候选框的HOG特征, 并通过多层感知器(MLP)二分类来实现. 由于MLP网络结构简单, 也有利于提高实时性. 最后, 根据实际应用场景设置图像中需要监测的区域(报警区域), 计算行人目标候选框与报警区域的交叠率, 通过类似斯密特触发器的双门限来进行逻辑判断. 例如, 当交叠率大于90%, 表征行人进入了标记区; 当交叠率小于10%, 表征行人离开了标记区. 实验表明, 本方法的报警准确率可达91%, 在实际应用中能较好克服环境影响, 具有较好的应用前景. 目标检测报警总体架构图如图1所示.

图 1 目标检测报警总体架构图

2 算法设计

本文中软件主要包括行人检测、目标分类、交叠率与报警逻辑3部分.

2.1 行人检测

YOLOv3在原来YOLOv2的基础上参考了ResNet和SSD网络结构, 兼顾网络复杂度和检测准确率. YOLOv3的改进主要体现在3个方面: 1)将YOLOv2的Softmax损失函数改成了Logistic损失函数, 类别预测中单标签分类改进为多标签分类; 2) YOLOv2用了5个anchor, 而YOLOv3用了9个, 提高了交并比; 3)采用了多个不同尺度的特征图谱, detection有由1个增加到3个, 且特征图谱维度也由13×13增加至52×52, 有利于小目标检测和准确率. 虽然YOLOv3增加了anchor和detection, 但YOLOv3的网络结构是纵横交叉的, 很多通道的卷积层没有依赖性, 这个非常有利于并行计算.

本文对YOLOv3在第一阶段生成的预选框, 针对红外采集图像前景和背景分类不平衡, 加入focal loss只对背景进行loss调节[34], 在训练过程中逐渐减低“简单样本”的权重, 而向“困难样本”加权. 如式1, $\alpha $ 为权重因子, $p$ 为交叉熵调节因子, $\gamma $ 为调节loss相关性指数, 计算中取 $\alpha $ =0.25, $p$ =0.4, $\gamma $ =2.

${L_{\rm {noobj}}} = - \alpha \times {p^\gamma } \times \log (1 - p)$ (1)

同时, 修改随机参数, 让不同分辨率的红外图片进行训练. 用红外数据集进行模型的预训练, 在神经网络迭代过程中, 随机改变输入图像的分辨率进行多尺度训练, 从而提升网络整体适应性.

2.2 目标分类

通过YOLOv3可以比较有效的检测到行人目标, 但误检仍然不可避免, 所以对检测目标的进一步分类是有必要的. 目标分类需要提取目标区域的特征向量, 并使用分类器来分类. 考虑到行人目标的长宽比相对固定(几何不变性), 且运动过程中难免会有肢体动作, 本文选择方向梯度直方图(HOG)来提取目标区域的HOG特征, 并通过多层感知器(MLP)二分类来实现, 目标分类流程图如图2.

图 2 目标分类流程图

2.2.1 特征提取

对于目标区域图片, 首先缩放至一个固定比例, 然后对缩放后的区域进行灰度化处理, 最后再提取特征和二分类. 在HOG计算时, 通过梯度算子分别计算水平方向和垂直方向的梯度分量gradscaly, 然后再计算每个像素点的梯度大小和方向.

${G_x}(x,y) = H(x + 1,y) - H(x - 1,y)$ (2)
${G_y}(x,y) = H(x,y + 1) - H(x,y - 1)$ (3)
$G(x,y) = \sqrt {{G_x}{{(x,y)}^2} + {G_y}{{(x,y)}^2}} $ (4)
$\alpha (x,y) = \arctan ({{{G_y}(x,y)}/{{G_x}(x,y)}})$ (5)

$H(x,y)$ , ${G_x}(x,y)$ , ${G_y}(x,y)$ 分别代表像素点(x,y)的像素值、水平方向梯度、垂直方向梯度. $G(x,y)$ $\alpha (x,y)$ 分别为像素点(x,y)处的梯度幅值和梯度方向. 将检测区域分成若干个cell, 将每个cell计算出的特征向量串联系起来即可得到整个检测区域的HOG特征.

2.2.2 二分类

分类算法是目标检测中非常重要的一个环节, 分类算法的性能直接影响检测性能. 目前的分类算法有很多, Adaboost算法[25, 26]和支持向量机(SVM)算法[27]都是性能优良、使用广泛的分类算法. 本文选择性能较好的多层感知器(MLP)来实现二分类.

本文中的多层感知器选用了一个输入层、两个隐藏层、一个输出层的网络结构. 在这个模型中, 检测区域的HOG特征会连接到输入层神经单元, 输入层会连接到临近隐藏层各神经单元, 最后一个隐藏层的神经元再连接到输出层, 每一层的连接都是全连接, MLP神经元网络图如图3. 对于输出的结果, 用激活函数Sigmoid即可实现分类.

图 3 MLP神经元网络图

2.3 交叠率计算

在目标检测的评价体系中, 交并比(IOU)是一个重要的评价尺度. IOU是指检测结果(detection result)与标记窗口(ground truth)的交集与并集的比值, 交叠率示意图如图4, 主要用来判断检测框的重合程度.

图 4 交叠率示意图

$IOU = \frac{{D \cap G}}{{D \cup G}}$ (6)

对于没有方向性要求和距离评价的检测框而言, 交并比无疑是非常合适. 但在现实中, 许多目标是动态的, 我们希望能够尽可能的反映目标变化, 并且尽可能的设置合理门限值来过滤评价结果. 对于检测结果与标记窗口相等的情况, 典型的就是比较视频中连续帧同一目标的交并比, 交并比的门限值是容易设定的, 交并比的范围也很明确, 为[0,1]. 对于检测结果与标记窗口不相等的情况, 如一帧图像中检测目标是行人而标记窗口是广场, 交并比往往好计算而门限不好设置. 为此, 我们将两种情况统一考虑, 引入交并比的思想, 提出计算交叠率. 即计算同一目标连续帧的交叠率, 同时计算当前图像帧中检测目标与标记窗口的交集与检测目标本身的比率, 计算公式如下.

$IO{U_D} = \frac{{{D_{\rm {pre}}} \cap {D_{\rm {cur}}}}}{{{D_{\rm {pre}}} \cup {D_{\rm {cur}}}}}$ (7)
$IO{U_G} = \frac{{{D_{\rm {cur}}} \cap G}}{{{D_{\rm {cur}}}}}$ (8)

${D_{\rm {pre}}}$ , ${D_{\rm {cur}}}$ , $G$ 分别代表上一帧图像检测目标框, 当前帧检测目标框, 标记框. $IO{U_D}$ 是动态因子, 反映了检测目标自身的运动特性; $IO{U_G}$ 是静态因子, 反映了检测目标在标记范围内的静态特征. 通过动态因子和静态因子, 即可以反映视频场景中目标自身的运动信息和目标相对于标记范围的运动信息.

在行人检测的场景中, $IO{U_D}$ 可表征行人是否丢失和行走的快慢, $IO{U_G}$ 可表征行人是否进入标记范围和进入的程度.

在实际应用场景中, 需要对 $IO{U_D}$ 设置门限, 以判定前后两帧的行人检测结果是否为同一目标. 将 $IO{U_D}$ 大于等于0.5认定为是同一个行人, 数值越大, 行走越慢. 当 $IO{U_D}$ 小于0.5时, 认定为当前行人目标丢失, 产生了新的行人目标.

在实际应用场景中, 将 $IO{U_G}$ 通过类似斯密特触发器的双门限来进行逻辑判断是有必要的. 例如, 当 $IO{U_G}$ 逐渐增大到大于90%, 表征行人进入了标记区; 当 $IO{U_G}$ 逐渐减小到小于10%, 表征行人离开了标记区.

3 实验结果分析 3.1 行人检测分析

作者在生活园区的主干路和临近绿化带支路共架设了4台红外摄像机, 用38天时间采集了19:00~22:00间的行人数据, 最后形成了有效行人数据集共11 854张. 随机将数据集的70%抽取出来当作训练集, 共8298张; 将剩下的3556张当作测试集.

在进行网络训练时, 修改随机参数, 用训练集进行模型的预训练, 在神经网络迭代过程中, 随机改变输入图像的分辨率进行多尺度训练. 针对本文所述方法, 在训练过程中, 通过在YOLOv3中加入focal loss对背景进行loss调节, 进行“困难样本”的自适应加权学习. 在用测试集测试时, 对于检测结果, 利用方向梯度直方图(HOG)和多层感知器(MLP)二分类来实现目标过滤. 行人检测性能对比如表1.

表 1 行人检测准确率对比表(单位: %)

3.2 交叠率报警分析

计算行人目标的候选框与标记区域的交叠率. 首先, 对测试集中的3556张图片标记报警区域, 为了提高测试集的利用效率, 我们对每张照片均标记了3次作成3个样本: 标记区域与行人重叠度大于90%的作为正样本; 标记区域与行人重叠度小于10%作为负样本; 标记区域与行人重叠度在10%~90%之间的作为中间样本.

然后, 我们设置报警逻辑, 与测试集打标时一致, 设置类似斯密特触发器的双门限来进行逻辑判断, 当交叠率大于90%, 表征行人进入了标记区; 当交叠率小于10%, 表征行人离开了标记区. 交叠率报警性能对比如表2, 交叠率报警效果如图5.

3.3 实验结果

实验表明: 结合表1来看, 行人检测的识别率因样本像素的增加而提高; 改进YOLOv3比YOLOv3的准确率要高, 这是由于改进YOLOv3更加关注困难样本的学习; 而改进YOLOv3+HOG+MLP检测结果要优于改进YOLOv3, 这是由于二分类能过滤一部分误检.

表 2 改进YOLOv3+HOG+MLP的交叠率报警准确率对比表(单位: %)

图 5 交叠率报警效果图

在行人检测之后, 进行了交叠率计算和报警逻辑判断. 结合表1表2来看, 对于改进YOLOv3+HOG+MLP算法, 交叠率报警的准确率比行人检测的准确率要低4%左右, 这是由于行人候选框的精度存在误差, 导致候选框在计算交叠率时产生误差; 结合表2来看, 同一种像素条件下, 正负样本的准确率很接近, 而中间样本则普遍低了2%左右, 这是由于测试数据集中在交叠率门限附近的样本出现了“判断困难”, 实际上还是行人候选框的精度问题; 同时, 交叠率门限附近的“判断困难”也证明, 本文的斯密特双门限逻辑设计的必要性. 与此同时, 我们也应该看到, 中间样本的实际报警准确率达到了91%.

4 结束语

本文提出了结合红外图像的行人检测与交叠率的定位报警算法, 包括改进YOLOv3的行人检测算法、分类算法、交叠率算法与报警逻辑. 实验比较了不同图像分辨率、不同算法条件下的行人检测准确率, 进一步比较了不同图像分辨率下的交叠率报警的准确率. 实验表明, 本方法的报警准确率可达91%, 具有实际应用价值.

参考文献
[1]
刘元东, 吴双力, 陈树华, 等. 基于LoRa的低功耗远距离定位研究. 信息技术, 2019(2): 49-52, 57.
[2]
陈晓旭, 姚晓峰. 基于RSSI与ZigBee技术的公交车定位方法研究. 大连交通大学学报, 2019, 40(1): 103-108.
[3]
Albaidhani A, Morell A, Vicario JL. Anchor selection for UWB indoor positioning. Transactions on Emerging Telecommunications Technologies, 2019, 30(6): e3598.
[4]
Minne K, Macoir N, Rossey J, et al. Experimental evaluation of UWB indoor positioning for indoor track cycling. Sensors, 2019, 19(9): 2041. DOI:10.3390/s19092041
[5]
郝占军, 李倍倍, 党小超. 一种基于信道状态信息的人员轨迹跟踪方法. 计算机应用研究, 2019, 36(10): 3080-3084.
[6]
何伟健, 陆江城, 朱耀磷, 等. RFID旋转天线中的椭圆模型室内定位算法. 计算机工程与应用, 2019, 55(9): 87-93. DOI:10.3778/j.issn.1002-8331.1802-0039
[7]
胡东海, 邵元, 陈莹, 等. 基于改进粒子滤波的室内自适应定位算法. 计算机工程与应用, 2019, 55(9): 65-71, 167. DOI:10.3778/j.issn.1002-8331.1801-0416
[8]
Fornaser A, Maule L, Luchetti A, et al. Self-weighted multilateration for indoor positioning systems. Sensors, 2019, 19(4): 872. DOI:10.3390/s19040872
[9]
李俊唐, 缑纯良, 何兴. 基于神经网络的UWB室内定位算法. 西南师范大学学报(自然科学版), 2018, 43(6): 116-120.
[10]
童基均, 金利剑, 赵英杰, 等. 基于自适应卡尔曼滤波的超宽带室内定位系统. 测试技术学报, 2018, 32(2): 93-99.
[11]
彭昊, 彭敏, 安宁, 等. 基于蓝牙RSSI的贝叶斯区域判别定位算法. 计算机工程, 2019, 45(3): 125-131, 137.
[12]
陈晓江, 陈丽丽, 李博航, 等. 面向多重应用的高鲁棒被动式定位模型研究. 计算机学报, 2019, 42(2): 403-414. DOI:10.11897/SP.J.1016.2019.00403
[13]
戴志诚, 李小年, 陈增照, 等. 基于KNN算法的可变权值室内指纹定位算法. 计算机工程, 2019, 45(6): 310-314.
[14]
陈道钱, 吴晓平, 华宇婷. 一种测距辅助的室内可见光指纹定位方法. 激光与光电子学进展, 2019, 56(6): 060603.
[15]
饶华, 王忠, 李欣. 基于CMAES-SVR的WLAN室内定位算法研究. 计算机应用研究, 2019, 36(8): 2514-2517, 2521.
[16]
李方敏, 张韬, 刘凯, 等. 基于距离测量和位置指纹的室内定位方法研究. 计算机学报, 2019, 42(2): 109-120.
[17]
吕小微. 一种基于RFID和WSN的分布式节点定位方法. 电子技术应用, 2018, 44(10): 106-108, 113.
[18]
Takayama T, Umezawa T, Komuro N, et al. A regression model-based method for indoor positioning with compound location fingerprints. Geo-spatial Information Science, 2019, 22(2): 107-113. DOI:10.1080/10095020.2019.1612599
[19]
Vu TK, Hoang MK, Le HL. An EM algorithm for GMM parameter estimation in the presence of censored and dropped data with potential application for indoor positioning. ICT Express, 2019, 5(2): 120-123. DOI:10.1016/j.icte.2018.08.001
[20]
Machaj J, Brida P. Impact of optimization algorithms on hybrid indoor positioning based on GSM and Wi-Fi signals. Concurrency and Computation: Practice and Experience, 2017, 29(23): e3911. DOI:10.1002/cpe.3911
[21]
梁国龙, 张毅锋, 付进. 利用夹角几何关系的超短基线定位方法. 哈尔滨工程大学学报, 2019, 40(8): 1474-1479.
[22]
张帆, 李亚杰, 孙晓辉. 无线感知与视觉融合的井下目标跟踪定位方法. 矿业科学学报, 2018, 3(5): 484-491.
[23]
姚萌, 贾克斌, 萧允治. 基于单目视频和无监督学习的轻轨定位方法. 电子与信息学报, 2018, 40(9): 2127-2134. DOI:10.11999/JEIT171017
[24]
刘远远, 冯鹏, 龙邹荣, 等. 双目成像系统特征提取方法研究与实现. 激光与光电子学进展, 2018, 55(5): 051102.
[25]
李盈盈, 李菲菲, 陈虬. 基于改进HOG共生概率特征的行人检测算法. 电子科技, 2018, 31(9): 4-8.
[26]
陈丽枫, 王佳斌, 郑力新. 采用HOG特征和机器学习的行人检测方法. 华侨大学学报(自然科学版), 2018, 39(5): 768-773.
[27]
任克强, 马文楷. 基于自适应HCS-LBP特征的行人检测算法. 光电子·激光, 2018, 29(10): 1120-1127.
[28]
Susutti W, Lursinsap C, Sophatsathit P. Pedestrian detection by using weighted channel features with hierarchical region reduction. Journal of Signal Processing Systems, 2019, 91(6): 587-608. DOI:10.1007/s11265-018-1361-z
[29]
张汇, 杜煜, 宁淑荣, 等. 基于Faster RCNN的行人检测方法. 传感器与微系统, 2019, 38(2): 147-149, 153.
[30]
谭康霞, 平鹏, 秦文虎. 基于YOLO模型的红外图像行人检测方法. 激光与红外, 2018, 48(11): 1436-1442. DOI:10.3969/j.issn.1001-5078.2018.11.022
[31]
Kim T, Kim S. Pedestrian detection at night time in FIR domain: Comprehensive study about temperature and brightness and new benchmark. Pattern Recognition, 2018, 79: 44-54. DOI:10.1016/j.patcog.2018.01.029
[32]
王姮, 游斌相, 刘桂华, 等. 红外视频图像的行人检测算法. 自动化仪表, 2017, 38(7): 86-88, 94.
[33]
许茗, 于晓升, 陈东岳, 等. 复杂热红外监控场景下行人检测. 中国图象图形学报, 2018, 23(12): 1829-1837. DOI:10.11834/jig.180299
[34]
Lin TY, Goyal P, Girshick R, et al. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.