基于多特征融合和条件随机场的道路分割

引用本文

闫昭帆, 李雨冲, 严国萍. 基于多特征融合和条件随机场的道路分割. 计算机系统应用, 2020, 29(3): 240-245.http://www.c-s-a.org.cn/1003-3254/7284.html

Yan ZF, Li YC, Yan GP. Road Segmentation Method Based on Multi-Feature Fusion and Conditional Random Field. Computer Systems and Applications, 2020, 29(3): 240-245(in Chinese).http://www.c-s-a.org.cn/1003-3254/7284.html

基于多特征融合和条件随机场的道路分割

闫昭帆, 李雨冲, 严国萍

长安大学信息工程学院，西安 710064

收稿日期：2019-07-17; 修改日期：2019-08-22; 采用时间：2019-08-27; csa 在线出版时间：2020-02-28

基金项目：“弘毅长大”研究生科研创新实践项目(2018103, 2018109)

通讯作者：闫昭帆，E-mail: 2017124086@chd.edu.cn.

摘要：针对复杂交通场景图像中路面分割难度大和分割边缘粗糙的问题, 提出了一种基于多特征融合和条件随机场的道路分割方法. 首先, 提取图像的纹理基元特征与颜色特征; 然后, 将道路分割问题视为一个基于像素的二分类问题, 融合所提取的两种特征, 使用SVM分类器实现对交通场景图像中路面区域与背景区域的粗糙划分; 最后, 利用全连接条件随机场中的颜色与位置约束, 对分割结果进行优化, 获得更加平滑的分割边缘, 并与其他分割算法进行对比. 实验结果表明, 基于多特征融合与条件随机场的道路分割算法获得了95.37%的平均分割准确率和94.55%的平均像素精度.

关键词: 图像模式识别道路分割纹理基元特征多特征融合条件随机场

Road Segmentation Method Based on Multi-Feature Fusion and Conditional Random Field

YAN Zhao-Fan, LI Yu-Chong, YAN Guo-Ping

School of Information Engineering, Chang’an University, Xi’an 710064, China

Foundation item: “Hongyi Prospers” Graduates Innovative Research Practice Project (2018103, 2018109)

Abstract: In the complex traffic scene image, road segmentation is difficult and the edges of the segmentation are rough. In order to solve this problem, a road segmentation method based on multi-feature fusion and conditional random field is proposed. Firstly, the textons and color features of the image are extracted from the traffic image. Then, the road segmentation problem is regarded as a pixel-based binary classification problem. The extracted texton features and color features are fused and input into the SVM classifier, which can achieve the coarse segmentation of the road area and the background area in the traffic image. Finally, by using the color and position constraints of the fully connected conditional random field to optimize segmentation results, a smoother segmentation edge can be obtained and compared with other segmentation algorithms. The experimental results demonstrate that road segmentation method that based on the multi-feature fusion and the conditional random field achieves 95.37% of average segmentation accuracy and 94.55% of mean pixel accuracy.

Key words: image pattern recognition road segmentation texton multi-feature fusion conditional random field

图像分割是计算机视觉与模式识别领域的重要课题之一, 已经被广泛应用于图像识别和场景解析等任务中. 道路图像分割作为图像分割中的一种, 是指利用提取的图像特征, 达到分割复杂交通场景图像中的道路区域与背景区域的目的, 为安全驾驶与车辆路线自动规划提供了重要依据^[1,2]. 道路图像分割作为一项关键技术, 在自动驾驶^[3]以及机器人的自动导航等领域得到了广泛的应用.

图像分割方法主要包括基于纹理, 边缘等图像特征的分割方法, 基于阈值的分割方法, 基于超像素的分割方法以及基于像素点特征的分割方法等. 基于纹理, 边缘的分割方法是通过边缘检测算法或纹理特征提取算法, 获取不同区域间的边缘或图像的纹理特征, 从而实现对目标区域的划分. 例如田峥等提出一种基于图像边缘及纹理特征的道路分割方法^[4], 但该方法的计算复杂度高, 实时性差, 只适用于具有清晰边缘的图像. 基于阈值的分割方法通过确定一个阈值来划分目标区域与背景, 如文献[5]提出一种基于阈值分割和形态学的高分辨率遥感影像道路提取方法, 但该方法抗噪声干扰性能差, 阈值选择困难, 且只适用于前景和背景差异较大的图像. 基于超像素的图像分割方法将图像划分为不同的像素块作为超像素, 然后提取超像素的特征并对其进行分类, 从而实现对目标区域的划分. 例如吴实等^[6]采用了高效的超像素特征实现了岩屑图像的准确分割. 但该方法需要人工设定超像素的个数, 且超像素的数量设定会对图像分割的结果产生影响. 早期基于像素点的分割方法是通过提取像素点的特征, 进行逐像素的分类, 从而划分出目标区域^[7]. 例如文献[8]提出一种基于颜色的分割方法, 但是该方法易受光照不均匀和噪声等的影响. 因此需要进一步开展具有较高分割准确率的图像分割方法研究.

条件随机场(Conditional Random Fields, CRFs)^[9]是一种常用于序列分析的无向图模型. 与基于阈值, 颜色, 纹理等传统的图像分割方法相比, 使用条件随机场进行道路分割存在很大的优势. 首先, 条件随机场可以使用多个特征作为图像分割依据, 确保算法的准确性与普适性^[10]; 其次, 相较于有向图模型, 条件随机场无需提前假设观测数据的先验分布和条件分布, 且具有较高的准确性^[11]. 同时, 一种高效的全连接条件随机场的近似判别方法的提出, 很好的降低了条件随机场的计算复杂度^[12].

针对具有复杂背景的交通图像, 综合条件随机场的优势, 本文提出了一种基于多特征融合和条件随机场的道路分割方法. 首先, 提取具有图像描述能力的纹理基元特征和颜色特征, 对图像特征进行定量描述. 其次, 将图像的纹理基元特征与颜色特征进行融合, 并使用分类器进行分类. 最后, 将分类器得到的后验概率作为条件随机场的一元势能, 同时利用像素的颜色与空间之间的关联性作为条件随机场的二元势能, 将分割结果的边缘进行进一步的平滑, 得到更加精细的分割结果. 实验结果表明, 该方法可以实现像素级的路面分割, 获得了较高的平均分割准确率和平均像素精度.

1 基于多特征融合的条件随机场

本文系统框架如图1所示, 首先提取图片中单个像素的特征和像素间的特征. 其中像素特征包括图像的颜色, 纹理等特征, 相邻像素间的特征是用来表示像素之间的差异性, 包括颜色与位置之间的差异. 其次, 建立条件随机场模型来实现对交通场景中道路区域的分割.

图 1 基于多特征融合与条件随机场的道路分割模型

条件随机场是一种判别式概率模型, 现已被广泛应用于图像语义分割领域^[13–15]. 图2表示本文中的条件随机场与分割结果间的关系. 其中左侧部分为条件随机场模型, 右侧部分为条件随机场的分类结果, 圆点为图像中的像素点, 点与点之间的连线体现了像素间的相互影响.

1.1 纹理基元特征

纹理基元(Texton)最早由Julesz提出, 他认为纹理基元是组成图像纹理的基本要素. 图像的纹理特征能够通过基元的数目, 类型以及相互间的空间关系来描述. 因此, 纹理基元能够用于区分图像中不同区域的纹理差异, 并已被证实在物体分类和图像分割方面是有效的^[16–19].

纹理基元图的生成方式如下: 首先, 使用17维滤波器组与图像进行卷积, 由滤波响应可以获得一个Texton字典, 即为图像的纹理基元特征. 然后, 使用K-means聚类算法基于Texton字典对像素点进行聚类. 最后, 图像中的每一个像素都被归属至距离其最近的聚类中心, 获得图像的纹理基元图. 本文实验中所采用的交通场景图片的纹理基元图如图3所示.

图 2 条件随机场与分割结果的关系图

图 3 交通场景图像的纹理基元图

根据图3可以发现, 纹理基元图与标注图存在明显差别, 部分道路与车辆及绿化带被划分为一类, 而另一部分道路与天空划分为一类. 因此, 若仅使用纹理基元特征来进行分类, 当图像的分辨率发生变化时, 得到的纹理特征会产生较大偏差, 无法将路面从复杂的交通场景图片中准确的分割出来.

17维的纹理基元滤波器组是由不同尺度的高斯平滑滤波器, 高斯差分滤波器, 高斯拉普拉斯滤波器组成的. 3种滤波器在尺度为k时分别被定义为:

$G(u,v) = \frac{1}{{2\pi {k^2}}}\exp \left( - \frac{{{u^2} + {v^2}}}{{2{k^2}}}\right)$

(1)

$LOG(u,v) = \frac{1}{{\pi {k^4}}}\left(\frac{{{u^2} + {v^2}}}{{2{k^2}}} - 1\right)\exp \left( - \frac{{{u^2} + {v^2}}}{{2{k^2}}}\right)$

(2)

${G_x}(u,v) = \frac{\partial }{{\partial u}}G(u,v)$

(3)

其中, $G(u,v)$ 表示高斯滤波器, 在实验中其尺度分别被设置为1k, 2k, 4k, $LOG(u,v)$ 表示高斯拉普拉斯滤波器, 在实验中, 其尺度分别被设置为1k, 2k, 4k, 8k. ${G_{{x}}}(u,v)$ 表示x方向的高斯差分滤波器, 对应的y方向的高斯差分滤波器为 ${G_{{y}}}(u,v)$ . 在实验中, 其尺度分别被设置为2k和4k. 将图像在CIELab颜色空间中的L, a, b 3个通道分别3个不同尺度高斯平滑滤波器进行卷积, 获得9维滤波响应. 将图像的L通道与4种不同尺度的高斯拉普拉斯滤波器进行卷积, 获得4维滤波响应. 将图像的L通道分别与x方向和y方向上2种不同尺度的高斯差分滤波器进行卷积, 获得4维滤波响应, 组合所有的滤波响应则可得到Texton字典. 17维滤波器组如图4所示.

图 4 17维滤波器组

1.2 颜色特征与特征融合

对于交通场景图像中不同区域, 最显著的差异为在图像中显示颜色的不同. 对于图像, 像素点的 RGB值是其最直观的解释且对图像的分辨率较为鲁棒, 已被广泛用于图像分割等多个方面.

将图像中每个像素的RGB 值作为其颜色特征可以实现图像的分割. 但是存在交通场景图像中的背景区域与道路区域在颜色上非常相近的问题. 并且图像的颜色特征受光照, 遮挡, 阴影等的影响, 单纯依靠图像的颜色特征无法准确的对路面进行分割. 为使目标和背景的差异最大化, 本文融合了具有良好抗噪性能的纹理特征和对图像分辨率鲁棒的颜色特征. 融合方法为:

$F = [{F_t},F_{{c}}^{\rm RGB}]$

(4)

其中, F为融合后的特征, ${F_t}$ 为提取到的纹理基元特征, $F_{{c}}^{\rm RGB}$ 为提取的图片的颜色特征. 融合后的特征可以对两种特征的优势进行结合并对劣势进行互补, 能够更加容易的区分路面区域与背景区域, 为训练分类器做准备.

1.3 条件随机场

在提取图像的颜色特征与纹理基元特征后, 虽然已经能够实现初步的图像分割, 但是分割结果往往比较粗糙, 且准确率较低. 如果结合全连接条件随机场, 加入图像位置和颜色信息进行二次分割, 可以获得更为精细准确的分割结果^[20]. 定义在数据集{X₁, X₂, …, X_N}上的一个随机场X, 其中还X_i表示像素点i所对应的像素级的图像标注类别, N表示像素点的个数, 得到标注集合L={l₁, l₂, …, l_k}, 其中K表示类别数, l_k表示类别. 假设存在另一个随机场I={I₁, I₂, …, I_N}, I_j表示第j个像素点的颜色向量. 则一个条件随机场(I, X)可以由一个吉布斯分布表示为:

$P(X|I) = \frac{1}{{Z(I)}}\exp ( - E(X|I))$

(5)

其中, $Z(I)$ 为归一化因子, $E(X|I)$ 为吉布斯能量函数, 简称为 $E(X)$ . $E(X)$ 具体表达式如下:

$E(X) = \sum\limits_{i} {{\psi _u}({x_i})} + \sum\limits_{i < j} {{\psi _p}({x_i},{x_j})} $

(6)

其中, i和j都∈{1, 2, …, N}; ${\psi _u}({x_i})$ 为一元势函数, 可以具体的表示为:

${\psi _u}({x_i}) = - \log p({x_i})$

(7)

其中, P(x_i)表示像素i属于某个类别的概率, 即道路与背景. ${\psi _p}({x_i},{x_j})$ 为二元势函数, 可以表示为:

$ \begin{aligned}[b] {\psi _{^p}}({x_i},{x_j}) =& \mu ({x_i},{x_j})\left[ {\omega ^{(1)}}\exp \left( - \frac{{|{p_i} - {p_j}|2}}{{{\theta _\alpha }}} - \right. \frac{{|{I_i} - {I_j}{|^2}}}{{{\theta _\beta }}}\right) \\ &\left. +{\omega ^{(2)}}\exp \left( - \frac{{|{p_i} - {p_j}{|^2}}}{{{\theta _\gamma }}}\right)\right] \end{aligned}\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!$

(8)

其中, $\mu ({x_i},{x_j})$ 为标签兼容函数, 表示不同标签之间的兼容性, 当 ${x_i} \ne {x_j}$ 时 $\mu ({x_i},{x_j}) = 1$ , 否则等于0; ω为权重; P表示位置信息; I为像素点所对应的颜色向量; ${\theta _\alpha }$ , ${\theta _\beta }$ 和 ${\theta _\gamma }$ 为常参数.

由式(7)可知, 像素点的颜色越相似, 位置越接近, 越有可能被分配到相似的标签. 通过最小化式(5)中的能量函数, 就可以得到最优的分类结果. 由于P(X)的精确分布不容易求得, 所以使用平均场近似的方法^[12], 通过最小化 $Q(X) = \prod{{Q_i}({X_i})} $ 与 $P(X)$ 的KL散度 $D\left( {P||Q} \right)$ , 计算出一个分布 $Q(X)$ 来近似的表示分布 $P(X)$ , 最后得到最优分类结果.

条件随机场在本文算法中使用融合后的特征作为分类器的输入, 并将分类器的输出作为全连接条件随机场的一元势能. 在道路分割中, 路面通常是一块较大的连通区域并且路面与背景的边界的颜色通常会产生明显的变化, 因此, 条件随机场的二元势能对小规模的孤立区域进行较大的惩罚, 最终得到一个平滑的分割结果.

2 实验与分析 2.1 实验数据

本文使用文献[8]中Alvarez等收集的用于路面分割的数据集进行实验. 该数据集包括755张含有路面的交通场景图像, 收集于黎明、上午、中午、下午等不同的时间段与阴天, 雨天、晴朗等不同的天气状况下, 每张图片包含建筑物, 绿化带, 交通工具, 行人等背景信息. 每张交通场景图像的尺寸大小为640×480. 标注图的尺寸与原始图像相同, 并使用黑白两种颜色表示不同的类别. 由于受光照不均匀等拍摄状况的影响, 首先对图像使用直方图均衡化进行增强. 其次, 在实现过程中使用的一元势函数源于SVM分类器, 训练集使用数据集中50%的图片, 其余50%的图片为测试集.

2.2 评价指标

基于图像的道路分割问题的本质是对每个像素进行二分类. 对于分割后的图像, 本文使用ROC曲线下的面积(Area Under ROC Curve, AUC)和平均像素精度(Mean Pixel Accuracy, MPA)对模型的性能进行定量评价. 对于每个像素, 分类情况如表1所示.

表 1 分类结果的混淆矩阵

表1将模型预测得到的像素所属类别与该像素的标签比对后可以得到: 真阳性(True Positive, TP), 假阳性(False Positive, FP), 真阴性(True Negative, TN), 假阴性(False Negative, FN) 4类结果. 则MPA被定义为:

$MPA = \frac{1}{N}\sum\limits_{i} {\frac{{{N_{ai}}}}{{{N_{ti}}}}} $

(9)

其中, i={1,…, N}, N为分割的区域数, ${N_{ai}}$ 表示在第i类区域中被正确分类的像素数, ${N_{ti}}$ 表示第i类区域包含的像素总数. 在道路分割问题中, N的值为2. MPA表示每一类像素的精度的平均值, 取值范围是0到1, 其值越大则表示分割精度越高, 即有更多的像素被正确的分类, 当MPA为1时表示所有像素点均被准确分类. ROC曲线的纵轴是“真正例率”(TPR), 横轴是“假正例率”(FPR), 两者分别定义为:

$TPR = \frac{{TP}}{{TP + FP}}$

(10)

$FPR = \frac{{FP}}{{TN + FP}}$

(11)

TPR与FPR的取值范围为0到1,TPR的值越大, FPR的值越小表示模型的性能越好. 对应于AUC值的取值范围为0.5到1, 表示模型的平均分割准确率. 当取值为1时, 模型的性能最好, 表示所有的像素全部被正确的分类.

2.3 实验结果

为确定条件随机场中超参数 ${\theta _\alpha }$ , ${\theta _\beta }$ 和 ${\theta _\gamma }$ 对分割结果的影响, 使用网格搜索法对参数值进行比选, 最终确定其值分别为5, 10, 20. 本文算法可以实现交通场景图像的有效分割, 可以较为精确的将图像划分为道路区域与非道路区域. 首先, 将本文算法与未使用条件随机场的二元势能的分割模型进行比较, 分割结果如图5所示. 其中第1列为原始交通场景图像, 第2列为标注图, 第3列为本文方法的分割结果, 第4列为仅使用一元势能的分割结果.

图 5 本文使用方法与仅使用一元势能方法的分割结果比较

从图5可以看出, 如果仅使用条件随机场的一元势能进行分割, 即直接使用融合后的特征进行逐像素分类, 可以实现交通场景中车辆及行人轮廓的粗糙分割. 但由于未加入二元势能的位置约束与颜色约束, 导致分割边缘不清晰, 且存在零散的像素级的误分割, 不符合分割区域的连通特性. 如图5的第4列, 背景区域中存在很多被认为是道路区域的零散像素点. 本文提出算法的分割结果中的误分割现象相对较少, 对于图像的细节部分, 例如原始图像中行人的四肢, 车轮以及路灯等的对路面的遮挡等, 本文算法可以实现这些区域的精细分割并且存在较为平滑的分割边缘. 实验证明, 在本文方法的分割结果中, 孤立的小规模的区域减少, 分割结果更加平滑, 可以实现对一些细节的准确分割.

首先, 为确定本文算法的有效性, 使用本文方法与传统的图像分割方法进行比较. 其次, 为确定多特征融合相较于单一特征的优势, 将本文算法与仅使用单一颜色特征或单一纹理基元特征与条件随机场模的分割型进行比较. 表2给出了本文方法与其他分割方法在同一数据集上的平均准确率和平均像素精度的比较结果.

表 2 不同方法的平均分割准确率和平均像素精度

从表2可以看出, 本文方法获得了最高的平均分割准确率和最高的平均像素精度, 相较于基于阈值的分割方法, 两个评价指标分别提升了约15.2%和15.3%, 相较于仅使用单一颜色特征作的方法, 两个评价指标分别提升了约4.0%和3.2%, 相较于仅使用单一纹理基元特征的方法, 两个评价指标分别提升了约3.2%和4.1%, 证明了本文提出的方法是一种有效的道路分割方法.

3 总结

本文结合多特征与全连接条件随机场的优点, 提出了一种基于多特征融合和条件随机场的道路分割方法. 首先, 基于像素分别提取图像的颜色特征与纹理基元特征, 其次, 将提取到的特征进行融合, 使用SVM分类器实现基于像素的道路区域与非道路区域的划分, 并将得到的后验概率作为全条件随机场的一元势函数. 最后, 利用像素颜色与位置之间关联性作为全连接条件随机场的二元势函数, 得到最终的分割结果. 实验结果表明, 条件随机场可以很好的用于道路分割, 针对真实条件下采集的交通场景数据集具有一定的有效性, 获得了95.37%的平均分割准确率和94.55%的平均像素精度, 具有较为精细的分割结果, 在道路分割方面具有有效性. 但是, 对于准确性要求较高的场景, 本文提出的模型仍具有一定的局限性. 需要进一步开展研究来解决这一问题.

参考文献

[1]	Costea AD, Nedevschi S. Fast traffic scene segmentation using multi-range features from multi-resolution filtered and spatial context channels. 2016 IEEE Intelligent Vehicles Symposium. Gothenburg, Sweden. 2016. 328–334.
[2]	Hillel AB, Lerner R, Levi D, et al. Recent progress in road and lane detection: A survey. Machine Vision and Applications, 2014, 25(3): 727-745. DOI:10.1007/s00138-011-0404-2
[3]	Li Y, Xu LL, Rao J, et al. A Y-Net deep learning method for road segmentation using high-resolution visible remote sensing images. Remote Sensing Letters, 2019, 10(4): 381-390. DOI:10.1080/2150704X.2018.1557791
[4]	田峥, 徐成, 米超, 等. 基于消失点和主方向估计的道路分割算法. 计算机研究与发展, 2014, 51(4): 762-772.
[5]	吕书强, 张思博. 基于阈值分割和形态学的高分辨率遥感影像道路提取. 北京建筑工程学院学报, 2012, 28(1): 35-39.
[6]	吴实, 熊淑华, 李杰, 等. 基于简单线性迭代聚类算法和动态区域合并的岩屑图像分割. 科学技术与工程, 2016, 16(35): 238-243.
[7]	Zhou HL, Kong H, Wei L, et al. Efficient road detection and tracking for unmanned aerial vehicle. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(1): 297-309. DOI:10.1109/TITS.2014.2331353
[8]	Alvarez JM, Gevers T, Lopez AM. Road detection by one-class color classification: Dataset and experiments. arXiv: 1412.3506, 2014.
[9]	Chen LC, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 40(4): 834-848.
[10]	尹艳鹏, 周颖, 曾丹, 等. 基于多特征融合条件随机场的人脸图像分割. 电子测量技术, 2015, 38(6): 54-59.
[11]	He XM, Zemel RS, Carreira-Perpinan MA. Multiscale conditional random fields for image labeling. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004. Washington, DC, USA. 2004.
[12]	Krähenbühl P, Koltun V. Efficient inference in fully connected CRFs with Gaussian edge potentials. arXiv: 1210.5644, 2012.
[13]	Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(4): 640-651.
[14]	Chen LC, Papandreou G, Kokkinos I. Semantic image segmentation with deep convolutional nets and fully connected CRFs. Compute Science, 2014, 4: 357-361.
[15]	Payet N, Todorovic S. (RF)2-random forest random field. Advances in Neural Information Processing Systems (NIPS). 2010.
[16]	Shotton J, Winn J, Rother C, et al. TextonBoost for image understanding: multi-class object recognition and segmentation by jointly modeling texture, layout, and context. International Journal of Computer Vision, 2009, 81(1): 2-23. DOI:10.1007/s11263-007-0109-1
[17]	Winn JM, Criminisi A, Minka TP. Object categorization by learned universal visual dictionary. 10th IEEE International Conference on Computer Vision. Beijing, China. 2005. Vol 2. 1800–1807.
[18]	Zhang LG, Verma B. Roadside vegetation segmentation with adaptive texton clustering model. Engineering Applications of Artificial Intelligence, 2019, 77: 159-176. DOI:10.1016/j.engappai.2018.10.009
[19]	Wu J, Feng L, Liu SL, et al. Image retrieval framework based on texton uniform descriptor and modified manifold ranking. Journal of Visual Communication and Image Representation, 2017, 49: 78-88. DOI:10.1016/j.jvcir.2017.08.002
[20]	宋青松, 张超, 陈禹, 等. 组合全卷积神经网络和条件随机场的道路分割. 清华大学学报(自然科学版), 2018, 58(8): 725-731.