随着人工智能技术的发展, 行人检测被广泛应用于车辆辅助驾驶[1,2]、智能机器人[3]、智能视频监控[4,5]等领域, 也成为计算机视觉领域中重要的研究方向. 然而, 由于存在人体形态多变, 外物遮挡、光线昏暗等干扰因素, 导致提取的图像特征不显著, 从而影响系统整体的检测效果. 如何高效地检测出行人是目前研究的难点.
Dalal等人[6]提出了HOG (Histogram of Oriented Gradients)特征结合SVM分类器进行识别的行人检测算法, 并制作出目前使用广泛的INRIA行人数据库, 该HOG+SVM行人检测框架极大的地推动了行人检测技术的发展. 然而, 在实际复杂场景中单一特征难以取得较为满意的检测效果. 研究者们陆续提出了基于混合特征的行人检测算法. 陈锐等人[7]提出了一种PCA降维后的HOG特征与局部二值模式 (LBP) 特征融合的行人检测算法, 融合特征的检测效果优于单一特征. 胡庆新等人[8]提出了一种基于梯度方向直方图(HOG)、强度自适应特征(ISS)和积分通道特征(ICF)的多特征融合的行人检测算法, 该算法提高了检测精度, 但不能自适应选择特征融合加权值.
本文在HOG+SVM行人检测框架的基础上, 针对HOG特征提取速度慢且易忽视细节特征的问题, 提出了一种Gabor特征结合快速HOG特征提取的行人检测算法. 首先把样本图像灰度化处理, 并复制成两组样本. 然后, 对第1组样本进行小波变换, 再引入积分图思想和主成分分析算法, 简化HOG特征计算, 快速提取HOG特征. 对第2组样本先进行Gabor小波变换, 得到二维Gabor滤波图像, 提取Gabor特征. 最后串行融合快速HOG特征和Gabor特征, 得到混合特征来训练分类器, 实现行人的有效检测.
1 单一特征提取 1.1 传统HOG特征提取方向梯度直方图由Dalal等人[6]在2005年提出并应用于行人检测. 该算法较好的提取了行人的轮廓特征, 首先将检测窗口划分为许多小空间区域(cell), 然后计算cell中每个像素点的梯度方向和梯度幅值, 并生成梯度方向直方图. 再对梯度直方图进行对比度归一化, 将cell组成更大的块(block)并归一化块内的所有cell. 最后, 将归一化处理所得的描述符块称为方向梯度直方图描述子.
本文采用多尺度滑动窗口扫描的方法来提取HOG特征, 其中训练样本的尺寸是64×128, 扫描窗口大小是16×16, 扫描步长是8×8, 每个cell的大小为8×8, bin的个数为9. 在对一张图像提取HOG特征时, 会产生105个block, 每个block特征向量是36维. 所以一幅训练样本的HOG特征是3780维. 提取的HOG特征图如图1所示.
1.2 快速HOG特征提取针对传统HOG特征维度较高、计算量大等问题, 本节对其进行改进. 首先对输入图像进行小波变换去除部分干扰因素, 再引入积分图思想和主成分分析算法, 来加快HOG特征计算, 提取快速HOG特征.
1.2.1 小波变换
小波变换[9]基于小波理论, 其在时域和频域都具有良好的特性. 本文通过小波变换去除行人图像中的干扰因素, 进一步提高特征的表征能力.
对输入图像进行小波变换后, 得到4个尺寸是原图像1/4的变换子图像, 如图2所示. 左上方的低频子图像保留了原图像的大部分信息, 其他3幅高频子图像更多的保留了原图像的轮廓信息.
1.2.2 HOG积分图
对小波变换后的图像提取HOG特征时, 邻近block的重叠区域会重复计算每个像素的梯度信息, 导致计算量大, 影响特征提取的速度. 因此, 引入积分图思想[10]来加速HOG特征计算.
如图3所示, A(x, y)表示点(x, y)处的积分图, 是对其左上角矩形中各像素求和得到, s(x, y)表示点(x, y)在y方向的所有像素的和.
采用下列公式计算积分图:
$s(x,y) = s(x,y - 1) + I(x,y)$ | (1) |
$A(x,y) = A(x - 1,y) + s(x,y)$ | (2) |
由式(1)、式(2)可知, 要得到HOG积分图, 只需要对block块扫描两遍, 即先计算列的梯度信息积分和, 再计算block块的梯度信息积分图. 当计算相邻block块的重叠单元格的HOG特征时, 不需要重新统计重叠单元格中每个像素点的梯度方向和幅值, 只需要通过HOG积分图简单的加减运算来完成, 从而避免了重复计算像素点梯度信息的问题.
1.2.3 主成分分析算法
最终提取HOG特征向量的维数是3780维, 维度较高, 存在部分干扰信息, 这些干扰信息会影响检测速度, 降低检测精度. 故采用主成分分析算法对HOG特征进行分析, 剔除部分不显著的特征信息.
主成分分析算法[11]是通过一个降维矩阵将相关冗余数据映射到新的特征空间, 即用新的低维特征空间代替原高维空间. 该算法的关键在于合理确定降维后的维数, 本文通过累积方差贡献率曲线来选取降维的维数. 曲线横坐标表示降维后的特征维数, 纵坐标表示不同特征维数对应的累积方差贡献率, 提取HOG特征的累积方差贡献率曲线如图4所示.
在图4中, 对3780维的HOG特征矩阵进行主成分分析, 表1中统计了HOG特征中部分主成分的方差贡献率.
根据表1中的统计结果, 选取累积方差贡献率大于85%的主成分, 作为降维后HOG特征的维数. 分别提取了维度在500–1500维之间的HOG特征, 在自制数据集上, 采用线性SVM分类器进行10次实验取平均值, 实验结果如表2所示. 其中未降维前检测率为86.04%, 检测时间为21.89 s.
由表2可知, 在HOG维度为700维时, 算法的检测率为89.57%, 比降维前提高了3.53%, 随着特征维度的不断增加, 检测率整体呈下降趋势, 说明部分冗余信息会影响检测精度. 在维度为700维时, 算法检测时间比降维前减少了17.28 s, 检测速度比降维前明显提升, 但随着维度的增加检测时间也呈现增长趋势. 在考虑检测率和检测时间的情况下, 选取HOG特征降维的维度是700维, 从而保证在原始信息损失较少的情况下, 用低维特征信息代替原有高维特征信息, 简化数据运算, 提高检测性能.
1.3 Gabor特征提取
为了得到行人图像多方向和多尺度的纹理特征, 本文对样本图像I(x, y)进行Gabor小波变换获取Gabor特征. 具体是将图像I(x, y)与二维Gabor滤波器[12]卷积并取模, 得到二维Gabor滤波图像, 然后对滤波图像进一步分析, 提取Gabor特征.
计算公式如下:
$g(x,y,\lambda ,\theta ,\psi ,\sigma ,\gamma ) = \exp \left( {\frac{{ - {{x'}^{2}} + {\gamma ^2}{y'^{2}}}}{{2{\sigma ^2}}}} \right)\exp \left( {i\left( {2\pi \frac{{x'}}{\lambda } + \psi } \right)} \right) $ | (3) |
$F(x,y;\lambda ,\theta ) = \left\| {I(x,y)*g(x,y,\lambda ,\theta )} \right\|$ | (4) |
其中, x′=xcosθ+ysinθ, y′=−xsinθ+ycosθ ; λ为Gabor滤波波长; θ为Gabor滤波方向; ψ为相位偏移量; σ为高斯函数的标准差; γ为空间纵横比.
本文采用4个尺度(7, 12, 17, 21)和6个方向(0, 30, 60, 90, 120, 150)组成的Gabor滤波器组对图像进行Gabor小波变换. 首先将滤波器组与输入图像I(x, y)进行卷积运算可得到24幅Gabor特征图像F(x, y), 如图5所示. 对得到的Gabor特征图像继续分析, 通过计算其均值和方差, 得到一个具有多尺度多方向的48维Gabor特征向量.
2 混合特征提取
HOG特征是基于滑动窗口的方式提取行人的轮廓特征, 能对几何和光学的形变有很好的保持性; Gabor特征是一种局部化的纹理特征, 可以描述图像在时域和频域的纹理分布, 对于图像的亮度和对比度变化有较强的适应性. 采用串行融合的方式将快速HOG特征和Gabor特征融合成混合特征, 该特征可以同时获取行人的轮廓信息和纹理信息, 从而提高特征对行人的表征能力. 混合特征提取流程如图6所示.
3 实验结果与分析 3.1 实验环境及实验样本
实验开发平台为JetBrains PyCharm 2018, 运行环境为Intel(R) Core(TM) i5处理器、8 GB内存、Windows 7系统. 软件环境为Python 3.7, OpenCV 3.4.7. 实验样本部分来自INRIA行人数据集, 部分来自校园环境中拍摄的图像. 实验样本数如表3所示.
3.2 实验结果分析
本文通过4种实验方案对实验样本进行训练、测试来对比现有单一特征与混合特征的检测性能. 实验1是对样本直接提取HOG特征训练分类器, 实验2是对样本直接提取Gabor特征训练分类器, 实验3是对样本直接快速HOG特征训练分类器, 实验4是对样本分别提取Gabor特征和快速HOG特征, 串行融合成混合特征训练分类器, 最终实验结果以ROC曲线的形式呈现, 如图7所示. 在误检率为0.15时, 基于HOG特征训练分类器的召回率为82.94%, 基于快速HOG特征训练分类器的召回率为90.02%, 基于Gabor特征训练分类器的召回率为85.21%, 基于混合特征训练分类器的召回率为96.18%. 基于混合特征训练分类器的召回率比Gabor特征高10.97%, 比 HOG特征高13.24%, 比快速HOG特征高6.16%. 由曲线比较可知, 相比于单一特征, 混合特征训练分类器的ROC曲线整体更偏向左上方, 说明由混合特征训练分类器的检测性能更好.
本文分别采用单一特征和混合特征训练的分类器对测试样本识别的正确率如表4所示. 基于快速HOG与Gabor混合特征的分类器在测试样本检测中效果最优, 相比于单一特征训练的分类器, 行人检测的正确率有较明显的提高, 最多提高了7.37%.
基于混合特征的部分测试样本检测效果如图8所示, 左侧图片是较稀疏的行人目标, 混合特征训练的分类器能够全部找到图像中行人的位置; 右侧图片光线较暗、行人较为密集, 分类器能够检测出大部分行人目标, 但中间两人遮挡非常严重, 该分类器仍存在漏检现象.
4 结论与展望
本文基于HOG+SVM框架提出了一种Gabor特征结合快速HOG特征的行人检测算法. 利用HOG积分图和主成分分析算法快速提取HOG特征, 再融合Gabor特征形成混合特征训练分类器. 由测试集上的实验结果可得, 本文提出的混合特征训练分类器的检测性能优于单一特征的检测性能. 本文研究中提取快速HOG和Gabor特征向量融合时采用的权重系数是相同的, 从实验结果分析, 不同特征对行人的表征能力不同, 下一步将考虑基于权重的AdaBoost级联分类器来进一步改善算法的检测性能.
[1] |
贾慧星, 章毓晋. 车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述. 自动化学报, 2007, 33(1): 84-90. |
[2] |
许腾, 黄铁军, 田永鸿. 车载视觉系统中的行人检测技术综述. 中国图象图形学报, 2013, 18(4): 359-367. DOI:10.11834/jig.20130401 |
[3] |
王万良, 朱炎亮, 王铮, 等. 基于空间金字塔和特征集成的智能机器人目标检测算法. 计算机集成制造系统, 2017, 23(11): 2382-2391. |
[4] |
黄凯奇, 陈晓棠, 康运锋, 等. 智能视频监控技术综述. 计算机学报, 2015, 38(6): 1093-1118. DOI:10.11897/SP.J.1016.2015.01093 |
[5] |
苏松志, 李绍滋, 陈淑媛, 等. 行人检测技术综述. 电子学报, 2012, 40(4): 814-820. DOI:10.3969/j.issn.0372-2112.2012.04.031 |
[6] |
Dalal N, Triggs B. Histograms of oriented gradients for human detection. Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005. 886–893.
|
[7] |
陈锐, 王敏, 陈肖. 基于PCA降维的HOG与LBP融合的行人检测. 信息技术, 2015(2): 101-105. |
[8] |
胡庆新, 吕鹏. 基于多特征融合的红外图像行人检测. 计算机应用, 2016, 36(S1): 157-160, 195. |
[9] |
胡志峰. 基于小波变换图像去噪及边缘检测研究[硕士学位论文]. 南昌: 东华理工大学, 2018.
|
[10] |
李琪瑞. 基于人体识别的安全帽视频检测系统研究与实现[硕士学位论文]. 西安: 电子科技大学, 2017.
|
[11] |
Turhan CG, Bilge HS. Class-wise two-dimensional PCA method for face recognition. IET Computer Vision, 2017, 11(4): 286-300. DOI:10.1049/iet-cvi.2016.0135 |
[12] |
叶超. 基于Gabor小波和SVM的人脸识别算法研究[硕士学位论文]. 太原: 中北大学, 2014.
|