光流估计是计算机视觉的一个基础研究领域, 其计算结果被广泛用于物体分割、跟踪、运动场景分类等许多领域[1]. 自从Horn和Schunck的工作[2]以来, 光流估计领域的研究已经持续了几十年. 传统的方法[3–5]通过变分法框架最小化能量函数来求解光流场, 这在小位移场景下能获得较精确的结果, 但往往难以解决大位移光流问题. 尽管Brox[3]采用由粗到细(coarse-to-fine)的策略将高分辨率下的大位移转化为低分辨率下的小位移来计算, 但对于位移比物体本身尺寸更大的情况仍然难以适应[6].
为了克服变分法框架处理大位移时的缺陷, Brox等人在变分法模型中集成了稀疏的描述子匹配的结果[6,7], 用描述子匹配得到的运动场拉动变分法光流的计算. 通过将匹配结果与变分法相融合, 可以有效地提高变分法光流的精度[8]. Deepflow[9]通过非刚性匹配得到半稠密的运动场, 进一步提高了描述子对变分法的拉动能力. 文献[10]将图像进行分割并分别求取变换矩阵, 在单一运动场景和复杂运动场景下都取得了较好的结果, 近年来出现的基于 PatchMatch的方法[11–13]通过随机搜索和邻域块之间的信息传播[14]加快了寻找匹配对的过程, 有效提高了匹配精度.
近年来, 马尔科夫随机场也被许多学者用来尝试作为寻找图像间匹配点的模型. 求解马尔科夫随机场的推断算法如置信度传播在实际应用中能得到较精确的匹配结果, 但是存在着计算量太大的问题. Felzenszwalb等人提出了一种高效的循环置信度传播算法[15], 在有限次的消息传递迭代以后就能获得较好的结果, 但该方法适用于小位移场景, 在大位移场景下仍然过于耗时. SPM-BP方法[16]将消息传递算法与PatchMatch的随机搜索相结合, 在减小标签空间的同时获得了亚像素精度的位移场. FullFlow[17]提出了一种全局的消息传递优化方法并将消息传递的计算复杂度从二次降为线性, 取得了较为精确的匹配结果. 将置信度传播应用于光流估计的关键在于在标签空间和位移场精度之间取得平衡. 高精度的大位移估计意味着较大的标签空间, 这会导致计算时间及内存上的巨大开销. FullFlow虽然提出了改进方法, 但在大位移场景下的精确估计仍然比较耗时, SPM-BP虽然利用随机搜索有效缩短了时间, 但是精度不稳定, 错误的标签空间选取可能导致严重的误差.
综上所述, 以往提出的方法存在的不足之处主要表现在光流计算精度有限和处理速度缓慢的问题, 为了解决上述问题, 我们提出了分层置信度传播算法用以计算精确光流. 图1展示了我们模型的主要流程. 我们构建了两层马尔科夫随机场: 超像素层与像素层. 我们首先在超像素层执行置信度传播得到一个大范围但低精度的位移场, 然后利用该位移场限定每个像素点可能的位移范围, 从而有效减小像素层置信度传播的标签空间, 然后在像素层执行置信度传播得到每个点的高精度位移. 通过分层的方式, 我们有效地提高了利用置信度传播计算光流的效率. 为了提高算法的鲁棒性, 我们还在置信度传播模型中加入了相邻多帧的图像信息作为参考, 对于存在严重遮挡的运动场景, 多帧信息能有效减少误匹配的发生.
2 相关工作
应用于计算机视觉的置信度传播算法的一般框架是将图像中的每一个像素点作为马尔科夫随机场中的一个节点, 并用边连接四邻接的像素点. 对每个节点而言, 每一种可能的取值都是一个标签. 对光流估计问题来说, 每一个标签都代表一种可能的位移. 目标函数一般定义为:
$E(f) = \sum\limits_{p \in {\cal{P}}} {{C_p}({f_p})} + \sum\limits_{(p,q) \in N} S ({f_p},{f_q})$ | (1) |
其中,
根据Felzenszwalb等人的工作[15], 在带环的马尔科夫随机场中最小化能量函数(1)可以通过循环置信度传播来实现. 循环置信度传播通过消息迭代传递来更新每个节点的状态, 消息迭代更新的公式如下:
$m_{pq}^t({f_q}) = \mathop {\min }\limits_{{f_p}} (S({f_p},{f_q}) + {C_p}({f_p}) + \sum\limits_{s \in {N_p}\backslash q}^{} {m_{sp}^{t - 1}({f_p}))} $ | (2) |
其中,
${b_p}({f_p}) = {C_p}({f_p}) + \sum\limits_{q \in {N_p}} {{m_{qp}}({f_p})} $ | (3) |
并选择向量
当处理存在大位移场景的高分辨率图片时, 过大的节点数量和标签空间使得上述框架计算极为耗时. 上文提到的FullFlow虽然可以通过置信度传播取得较为精确的结果, 但是其计算极为消耗资源, 而SPM-BP利用随机选取来获取候选标签的方法并不稳定, 错误的标签可能造成较大的误差. 本文提出的方法不但能有效提升置信度传播的效率, 而且可以获得较高精度的结果, 在时间消耗和光流估计的精度上取得了较好的平衡.
3 本文方法定义输入的两帧图像是
定义
$E(f) = \sum\limits_{p \in {\cal P}} {\left(\alpha {C_{\rm {color}}}({f_p}) + \beta {C_{\rm {desc}}}({f_p})\right)} + \sum\limits_{(p,q) \in N} {S({f_p},{f_q})} $ | (4) |
其中,
${C_p}({f_p}) = \alpha {C_{\rm {color}}}({f_p}) + \beta {C_{\rm {desc}}}({f_p})$ | (5) |
我们利用公式(2)和公式(3)来最小化能量函数(4),为了克服置信度传播在大位移场景下巨大计算量,我们的模型引入了分层结构.
3.1 分层结构基于上述模型, 较直观的方法是将
本文对于置信度传播过程的改进基于这样的假设: 一个物体表面局部区域内的像素点的运动往往是一致的, 因此可以将每一小块这样的区域作为一个节点构建马尔科夫随机场. 如果能得到每块区域的大致位移, 区域内的每个像素点在进行置信度传播时就能将候选位移控制在较小的范围内. 为了得到这些小块的区域, 我们将
在完成超像素层的循环置信度传播后, 得到了一个基础的位移场. 利用这个基础结果来引导像素层的置信度传播, 能够有效地减少每个像素点的标签数量. 用
${m_{pq}}({u_q},{v_q}) = \mathop {\min }\limits_{{v_p}} {m_{pq|{v_p}}}({u_q}) + \rho ({v_q} - {v_p})$ | (6) |
${m_{pq|{v_p}}}({u_q}) = \mathop {\min }\limits_{{u_p}} {\phi _{pq}}({u_p},{v_p}) + \rho ({u_q} - {u_p})$ | (7) |
其中
3.2 数据项定义
根据公式(5), 数据项
在像素层, 每个像素点都对应MRF中的一个节点, 由于节点数量多, 如果计算每个节点在每一种候选位移下对应点间的SIFT特征欧式距离将使得像素层的数据项计算变得极为耗时. 为了有效地减少计算时间, 本文方法在像素层上使用Census变换[20]提取每个点的局部特征, 然后利用汉明距离计算运动前后的
为了解决由于大位移和物体运动到画面以外而导致的遮挡问题, 进一步提高结果精度,本文提出的模型考虑了前后多帧图像的信息, 由于物体的运动具有惯性, 同一物体在相邻多帧图像上的运动往往具有一致性, 多帧信息在一定程度上可以弥补前后两帧图像中部分区域丢失的信息[21]. 我们在计算数据项
图3显示了使用多帧信息的示意图.
${C_p}({f_p}) = \min \left \{ {C_{t,t - 1}}( - {f_p}),{C_{t,t + 1}}({f_p}),{C_{t,t + 2}}(2{f_p})\right \} $ | (8) |
对于含有
在完成分层置信度传播以后, 通过前后一致性检查来去除错误的位移, 得到一个半稠密的光流场. 之后我们采用EpicFlow[22]的插值方法, 通过现有的半稠密光流场插值填充空白区域的位移, 得到最终的亚像素精度的光流场结果.
4 实验及结果分析
实验在常用的光流数据集MPI Sintel数据集[23]上对本文方法进行评估. MPI Sintel数据集提供了包含大位移、运动模糊和大面积遮挡等场景的动画视频序列. 数据集包含23个训练集图像序列, 12个测试集图像序列, 每个图像序列都包含清晰版和加入了运动模糊、气流变化的最终版本, 由于最终版本图像更接近于真实场景图像, 实验在最终版本的图像上评估算法性能. 实验平台为4核Intel i5-4590 3.30 GHz CPU和8 GB RAM的个人台式计算机.
4.1 参数分析我们随机选取MPI Sintel数据集中10%的训练集数据来进行模型参数的评估实验. 在公式(4)中, 系数
图4显示了不同
4.2 MPI Sintel实验结果
实验模型参数设置为: 超像素层上
表2将本文模型的实验结果与目前前沿的一些方法作了比较. 从表中可以看到本文方法的结果优于大部分方法. 我们的模型使用了EpicFlow[22]的插值方法, 而其最终结果优于EpicFlow, 这说明本文提出的模型在精确匹配对应点上比EpicFlow表现更好. 从表中结果看出本文方法在精度上具有一定的竞争力.
图6显示了部分实验结果可视化图像的示例, 图中将本文提出的方法与EpicFlow与SPM-BP的结果进行了对比. 每一列的第一行和第二行为输入图像, 第三行为EpicFlow的结果, 第四行为SPM-BP的结果, 第五行是本文方法的结果, 最后一行为真值. 图中方框标出的区域显示了本文方法的优势. 从第一列我们可以看到EpicFlow的结果在图像右上角出现了明显的错误, SPM-BP则在图像的右下角区域出现明显的错误, 本文的方法与真值更接近. 第二列的EpicFlow的结果没有捕捉到人物手臂的运动, SPM-BP的结果中手臂的运动方向与真值相比出现了明显的偏差, 本文方法捕捉到了手臂及身后木棍的运动. 第三列中, EpicFlow和SPM-BP都没有捕捉到左上角手部的运动, 而本文提出的方法则成功地捕捉到了手部的运动. 第四列中, EpicFlow和SPM-BP在图像左上方的运动方向都出现了明显的错误.
5 结束语
本文提出了一种分层执行置信度传播的方法来进行光流估计, 能在较短的时间内获得高精度的大位移光流场. 为了克服将置信度传播应用于大位移场景时巨大的内存与时间开销, 本文方法首先在超像素图像上执行置信度传播, 将每个超像素块作为节点并扩大候选位移的步长以提高运算效率, 之后利用得到的超像素位移场来引导像素层的置信度传播, 将每个像素节点的标签空间限制在一个较小的范围内, 有效提高了像素层置信度传播的效率. 本文模型仅使用了常见的SIFT描述子及Census变换就在大位移场景下取得了较为精确的光流估计结果, 这说明本文提出的模型能有效地寻找精确的点对应, 适用于高精度的大位移光流估计.
本文模型中使用了SLIC超像素分割算法和稠密SIFT描述子, 在之后的工作中, 设计更为优秀的分割算法和描述子, 将进一步提升模型的性能. 此外, 利用GPU并行实现本文算法也将进一步提升分层置信度传播的执行效率. 虽然本文提出的模型有效地提高了置信度传播的执行效率, 但其执行速度距离实时计算仍有差距, 且计算精度仍有提升空间. 我们相信通过后续的工作改进, 置信度传播算法将成为光流估计的一个有力工具.
[1] |
周智, 张伟峰, 赵斌, 等. 基于光流的ATM机异常行为实时检测. 计算机系统应用, 2017, 26(9): 232-237. DOI:10.15888/j.cnki.csa.005929 |
[2] |
Horn BKP, Schunck BG. Determining optical flow. Artificial Intelligence, 1981, 17(1-3): 185-203. DOI:10.1016/0004-3702(81)90024-2 |
[3] |
Brox T, Bruhn A, Papenberg N, et al. High accuracy optical flow estimation based on a theory for warping. In: Pajdla T, Matas J, eds. Computer Vision-ECCV 2004. Lecture Notes in Computer Science, vol 3024. Springer. Berlin, Heidelberg. 2004. 25–36. [doi: 10.1007/978-3-540-24673-2_3]
|
[4] |
Sun DQ, Roth S, Black MJ. Secrets of optical flow estimation and their principles. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA. IEEE. 2010. 2432–2439. [doi: 10.1109/CVPR.2010.5539939]
|
[5] |
Xu L, Jia JY, Matsushita Y. Motion detail preserving optical flow estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(9): 1744-1757. DOI:10.1109/TPAMI.2011.236 |
[6] |
Thomas Brox, Jitendra Malik. Large displacement optical flow: Descriptor matching in variational motion estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(3): 500-513. DOI:10.1109/TPAMI.2010.143 |
[7] |
Brox T, Bregler C, Malik J. Large displacement optical flow. 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA. IEEE. 2009. 41–48. [doi: 10.1109/CVPR.2009.5206697]
|
[8] |
Tu Z, Poppe R, Veltkamp RC. Weighted local intensity fusion method for variational optical flow estimation. Pattern Recognition, 2016, 50(C): 223-232. |
[9] |
Weinzaepfel P, Revaud J, Harchaoui Z, et al. Deepflow: Large displacement optical flow with deep matching. 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia. IEEE. 2013. 1385–1392. [doi: 10.1109/ICCV.2013.175]
|
[10] |
Yang JL, Li HD. Dense, accurate optical flow estimation with piecewise parametric model. 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA. IEEE. 2015. 1019–1027. [doi: 10.1109/CVPR.2015.7298704]
|
[11] |
Bao LC, Yang QX, Jin HL. Fast edge-preserving patchmatch for large displacement optical flow. IEEE Transactions on Image Processing, 2014, 23(12): 4996-5006. DOI:10.1109/TIP.2014.2359374 |
[12] |
Bailer C, Taetz B, Stricker D. Flow fields: Dense correspondence fields for highly accurate large displacement optical flow estimation. 2015 IEEE International Conference on Computer Vision. Santiago, Chile. IEEE. 2015. 4015–4023. [doi: 10.1109/ICCV.2015.457]
|
[13] |
Hu YL, Song R, Li YS. Efficient coarse-to-fine patch match for large displacement optical flow. 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE. 2016. 5704–5712. [doi: 10.1109/CVPR.2016.615]
|
[14] |
Barnes C, Shechtman E, Goldman DB, et al. The generalized patchmatch correspondence algorithm. In: Daniilidis K, Maragos P, Paragios N, eds. Computer Vision-ECCV 2010. Lecture Notes in Computer Science, vol 6313. Springer. Berlin, Heidelberg. 2010. 29–43. [doi: 10.1007/978-3-642-15558-1_3]
|
[15] |
Felzenszwalb PF, Huttenlocher DP. Efficient belief propagation for early vision. International Journal of Computer Vision, 2006, 70(1): 41-54. DOI:10.1007/s11263-006-7899-4 |
[16] |
Li Y, Min D, Brown MS, et al. Spm-bp: Sped-up patchmatch belief propagation for continuous mrfs. 2015 IEEE Inter-national Conference on Computer Vision. Santiago, Chile. IEEE. 2015. 4006–4014. [doi: 10.1109/ICCV.2015.456]
|
[17] |
Chen QF, Koltun V. Full flow: Optical flow estimation by global optimization over regular grids. arXiv: 1604.03513.
|
[18] |
Achanta R, Shaji A, Smith K, et al. Slic superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282. DOI:10.1109/TPAMI.2012.120 |
[19] |
Liu C, Yuen J, Torralba A. Sift flow: Dense correspondence across scenes and its applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 978-994. DOI:10.1109/TPAMI.2010.147 |
[20] |
Zabih R, Woodfill J. Non-parametric local transforms for computing visual correspondence. In: Eklundh JO, ed. Computer Vision-ECCV’94. Lecture Notes in Computer Science, vol 801. Springer. Berlin, Heidelberg. 1994. 151–158. [doi: 10.1007/BFb0028345]
|
[21] |
Kennedy R, Taylor CJ. Hierarchically constrained optical flow. 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA. IEEE. 2015. 3340–3348. [doi: 10.1109/CVPR.2015.7298955]
|
[22] |
Revaud J, Weinzaepfel P, Harchaoui Z, et al. Epicflow: Edge-preserving interpolation of correspondences for optical flow. 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA. IEEE. 2015. 1164–1172. [doi: 10.1109/CVPR.2015.7298720]
|
[23] |
Butler DJ, Wulff J, Stanley GB, et al. A naturalistic open source movie for optical flow evaluation. In: Fitzgibbon A, Lazebnik S, Perona P, et al., eds. Computer Vision-ECCV 2012. Lecture Notes in Computer Science, vol 7577. Springer. Berlin, Heidelberg. 2012. 611–625. [doi: 10.1007/978-3-642-33783-3_44]
|
[24] |
Li Y, Min D, Do MN, et al. Fast guided global interpolation for depth and motion. In: Leibe B, Matas J, Sebe N, et al., eds. Computer Vision-ECCV 2016. Lecture Notes in Computer Science, vol 9907. Springer. Cham. 2016. 717–733. [doi: 10.1007/978-3-319-46487-9_44]
|
[25] |
Sun DQ, Roth S, Black MJ. A quantitative analysis of current practices in optical flow estimation and the principles behind them. International Journal of Computer Vision, 2014, 106(2): 115-137. DOI:10.1007/s11263-013-0644-x |