计算机系统应用  2023, Vol. 32 Issue (4): 268-273   PDF    
姿态驱动的局部特征对齐的行人重识别
王琦, 刘志刚, 王淼, 赵宜珺     
东北石油大学 计算机与信息技术学院, 大庆 163318
摘要:针对行人重识别研究中的遮挡问题, 本文提出了一种姿态驱动的局部特征对齐的行人重识别方法. 网络主要包括姿态编码器和行人部件对齐模块. 其中, 姿态编码器通过重构姿态估计热力图抑制遮挡区域骨骼关键点置信度, 引导网络提取行人可见部位的特征. 行人部件对齐模块依据姿态编码器输出的关键点置信图, 提取行人局部特征进行特征对齐, 降低非行人特征的干扰. 在遮挡、半身数据集上的仿真实验表明, 该方法获得了优于其他对比网络的结果.
关键词: 行人重识别    姿态估计    全局特征    局部特征    部件对齐    图像检索    特征提取    
Pose-driven Person Re-identification with Local Feature Alignment
WANG Qi, LIU Zhi-Gang, WANG Miao, ZHAO Yi-Jun     
School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China
Abstract: To address the occlusion problem in person re-identification, this study presents a person re-identification method based on pose-driven local feature alignment. The network mainly consists of a pose encoder (PE) and a human part alignment module (HPAM). Specifically, the PE restrains the confidence of the key points on the bones in obscured areas by reconstructing the pose estimation heatmap to guide the network to extract the features of the person’s visible parts. The HPAM extracts the person’s local features according to the confidence map of the key points output by the PE for feature alignment, which further reduces the interference of non-person features. The simulation and experiments on occlusion datasets and half-body datasets show that the proposed method delivers better results than those produced by other networks under comparison.
Key words: person re-identification     pose estimation     global features     local features     part alignment     image retrieval     feature extraction    

行人重识别(person re-identification, Re-ID)指跨摄像头, 跨场景在特定视频或者图像集中检索同一行人或者区别不同行人[1]. 随着智能视频监控日益凸显的应用需求, Re-ID的研究已成为计算机视觉领域的热点问题[2-4]. 在监控场景中, 行人个体的相互遮挡、行人受背景的遮挡是普遍存在的现象, 增加了Re-ID的难度. 关键问题在于, 遮挡会在行人表征过程中引入过多的噪声, 降低特征的表示能力. 近年来, 尽管深度学习在Re-ID应用研究中的不断深入, 但同样面临该问题的挑战. 相较于一般Re-ID, 遮挡Re-ID需要处理图像中由遮挡物造成的噪声信息. 因此直接对整张图像进行特征提取, 往往难以学习到鲁棒的识别特征.

目前针对遮挡Re-ID的多数研究方法都关注于遮挡区域的抑制. Sun等人[5]提出了一种可见部件感知模型(visibility-aware part model, VPM), 先将人体划分为3个部分, 然后通过自监督学习方式确定人体部件可见或不可见, 网络只需关注不同遮挡图像中共同可见的部件特征. 但VPM的区域划分较为粗粒度, 不够细致. 而文献[6-9]通过局部区域定位的方式引导网络关注行人非遮挡区域, 起到了过滤遮挡噪声的作用, 从而降低遮挡对Re-ID的干扰. Zhao等人[6]使用多阶段特征融合的方式提取不同部位的特征, 再按像素层比较特征值, 保留最大值的特征, 达到去除遮挡噪声的目的. Su等人[7]根据人体姿态估计模型输出的14个关键点把行人分成6区域, 通过赋予行人每个特征区域一个不同的权重, 起到抑制遮挡噪声作用. Miao等人[9]提出了(pose-guided feature alignment, PGFA) 方法, 通过预先定义关节点置信度的阈值, 来确定未遮挡的人体区域, 然后结合人体区域的全局特征和水平切块的局部特征, 增强网络处理遮挡问题的能力. Gao等人[8]提出的(pose-guided visible part matching, PVPM) 网络则是通过生成伪标签的形式单独训练一个人体部件可见度网络, 引导网络关注未遮挡区域. 但这些方法存在过分依赖姿态估计模型的问题. 它们将行人特征的提取以及后续构建其他行人身份匹配的规则都完全建立在姿态估计模型输出的准确性上. 当姿态估计网络不准确时, 会导致Re-ID的性能出现严重下降, 增添了网络的不稳定性.

上述遮挡Re-ID方法都试图先定位遮挡物位置, 然后提取非遮挡部分的行人特征, 最后将可见行人部分特征与完整行人图像特征进行对齐与身份匹配. 于是, 针对Re-ID中的遮挡问题, 本文提出了一种姿态驱动的特征重构网络(pose-driven feature alignment network, PDFA), 该网络包括姿态编码器(pose encoder, PE)、行人部件对齐模块(human parts alignment module, HPAM)两个部分组成. 其中, 姿态修正编码器PE对人体姿态估计模型 (human pose estimation network, HPEN)输出的关键点的置信度进行动态调整, 抑制区域遮挡导致的关键点错误; 最后, 在全身(holistic)数据集、半身(partial)数据集和遮挡(occluded)数据集进行了仿真实验. 实验结果表明所提方法行人重识别效果优于其他对比算法.

1 姿态驱动的行人重识别方法

本网络主要包含姿态编码器和姿态对齐两个模块, 如图1. 姿态编码模块的作用是判别行人是否存在遮挡情况, 并通过骨骼关键点置信度, 引导特征提取网络关注可见部分的行人特征; 姿态对齐模块首先根据姿态修正模块的置信图, 对行人各个部位的特征进行精确定位, 然后提取不同区域的局部特征.

图 1 网络框架

1.1 姿态编码器

解决遮挡问题的关键在于提取行人特征, 减少遮挡区域特征的干扰. 通过观察经典的HPEN (如OpenPose[10]等)在遮挡与半身Re-ID数据集上的表现, 说明HPEN无法很好地解决遮挡状况下人体关键点的定位问题. 若在上述问题没有得到很好处置的情况下, Re-ID网络完全依赖于HPEN的输出, 则必然会出现不理想的Re-ID结果. 为了使网络在遇到遮挡情况时引导特征提取网络关注行人特征, 本文提出了姿态编码模块, 包括编码器(encoder)与双边增益函数(bilateral optimization function, BOF), 如图2所示.

图 2 姿态编码器

由于HPEN不参加训练, 其网络参数是恒定的, 当遮挡造成关键点热力图错误时, Re-ID结果也会出现偏差. 但Re-ID网络无法通过改变HPEN的参数来抑制噪声. 于是本文提出了编码器. 当样本存在遮挡区域时, 编码器可以通过梯度的反向传播精准的微调(fine-tune)编码器, 减少被遮挡人体部位的置信度, 使得Re-ID网络降低对遮挡区域特征的响应程度, 从而达到抑制非行人特征, 关注行人特征的目的.

具体说, 本文在HPEN后连接了一个CNN结构, 对HPEN输出的关键点热力图进行自适应调整. 首先, 输入样本通过HPEN输出关键点热力图 $ {Y_{{\text{HPEN}}}} $ , 接着将 $ {Y_{{\text{HPEN}}}} $ 输入BOF. BOF根据式(1)将 $ {Y_{{\text{HPEN}}}} $ 中每个通道上的每个像素点优化后输出 ${Y'_{{\text{HPEN}}}}$ . 最后, PE根据损失函数 $ {L_{{\text{PE}}}} $ ${Y'_{{\text{HPEN}}}}$ 的每个关键点通道进行置信值调整, 最后输出修正后的关键点热力图 $ {Y_{{\text{PE}}}} $ , 如式(2)和式(3):

$ y=\left\{ {\begin{array}{*{20}{l}} {1,\qquad\quad y \geqslant {{1 }}} \\ { {{\text{e}}^{{x^2}}} - 1,\quad{\rm{ others}}} \end{array}} \right. $ (1)
$ \delta _{{\text{HPEN}}}^i = \max (y_{{\text{HPEN}}}^i) $ (2)
$ \begin{split} {L_{{\text{PE}}}}= &{\textit{MSE}}({Y'_{{\text{HPEN}}}} , {Y_{{\text{PE}}}})\\ =&\dfrac{1}{n}\sum\limits_{i = 1}^n {\delta _{{\text{HPEN}}}^i{{(y'{{_{{\text{HPEN}}}^i} } - {{y}}_{{\text{PE}}}^i)}^2}} \end{split} $ (3)

其中, ${L_{{\text{PE}}}}$ 代表PE模块的损失, $ i $ 为HPEN输出的第 $ i $ 个通道. $ n $ =17表示HPEN的输出通道数. $\delta _{{\text{HPEN}}}^i$ 表示第 $ i $ 个通道的置信因子. ${\textit{MSE}}({Y'_{{\text{HPEN}}}} , {Y_{{\text{PE}}}})$ 代表双边增益函数输出 ${Y'_{{\text{HPEN}}}}$ 与编码器输出 $ {Y_{{\text{PE}}}} $ 之间的均方误差损失; $ y_{{\text{HPEN}}}^i $ ( $ y_{{\text{HPEN}}}^i \in {Y_{{\text{HPEN}}}} $ )表示HPEN 输出的第 $ i $ 个关键点置信图, 其中每个通道输出一个骨骼关键点, 该置信图经编码器修正后记为 $ y_{{\text{PE}}}^i $ ( $ y_{{\text{PE}}}^i \in {Y_{{\text{PE}}}} $ ).

1.2 人体姿态部件对齐

遮挡Re-ID的本质是遮挡后的行人图像与原始行人图像之间的匹配问题. 由于遮挡导致行人特征不完整, 在进行特征比较时, 易出现特征错位, 进而增大了Re-ID的难度. 为此, 本文在PE后设计了姿态部件对齐模块, 获得更多细致的行人特征信息.

此模块对图像中的人体部位进行定位, 抑制遮挡噪声, 以获得有效的行人特征. 首先, 此模块根据HPEN输出的17个骨骼关键点热力图划分为6局部区域热力图H1H6, 如图3所示. 接着, 将局部区域热力图和人体全局特征图 进行外积操作, 然后将外积后获得的不同人体部位的局部特征图通过全连接层FC映射成2 048维向量 ${f_i}$ (一个 ${H_i}$ 产生一个 ${f_i}$ , 共6个), 最后分别对不同区域的局部特征向量进行交叉熵损失, 达到对齐的目的, 增强网络对行人特征的响应能力. 具体过程如式(4).

$\left\{ { \begin{gathered} {f_i} = ({y_{{\text{Backbone}}}}) \otimes (y_{{\text{PE}}}^i \cdot \delta _{{\text{HPEN}}}^i) \\ {L_{{\text{cross}}}} = - \sum\limits_{i = 0}^n {p({x_i})\log (q({x_i}))} \\ \end{gathered}} \right. $ (4)

其中, $ {y_{{\text{Backbone}}}} $ 代表特征提取网络输出的特征图; $ {L_{{\text{cross}}}} $ 为交叉熵损失, $ n $ 表示一个批次样本图片总数, $ p({x_i}) $ 表示真实的概率分布, $ q({x_i}) $ 表示预测的概率分布.

图 3 人体部件划分示意图

1.3 损失函数

为了使新提出的Re-ID模型拥有出色的行人特征提取能力, 采用多任务学习的策略. 同时训练多个网络分支, 包括2个主要部分: 特征提取模块与姿态编码器模块. 于是总的损失函数为式(5):

$ L = {L_{{\text{cross}}}} + {L_{{\text{PE}}}} $ (5)

其中, ${L_{{\text{cross}}}}$ 为局部特征的交叉熵损失, ${L_{{\text{PE}}}}$ 为姿态编码器损失.

2 实验 2.1 实验环境

硬件环境: CPU Intel Xeon(R) E5-2640, 内存8 GB, 显卡Nvidia GTX2070 Super; 软件环境: 操作系统为64位Ubuntu 16.04.7, 基于Python 3.7.9的深度学习框架PyTorch 1.8.1完成程序编程.

2.2 实验数据与评估指标

为了验证本文所提方法的有效性, 分别使用7种公开的数据集进行实验, 包括3种全身数据集(Market-1501[3]、DukeMTMC-ReID[11]), 两种半身数据集(Partial-ReID[12]、Partial-iLIDS[13])和两种遮挡数据集(Occluded-Duke[9]、Occluded-ReID[14]). 本文使用了平均精确均值(mean average precision, mAP)和首位准确率(Rank-1)作为评估指标. Rank-1代表第1张图像与目标图像是同一行人ID的准确度. mAP如式(6), $ i $ 表示检索图像的序号, $ m $ 表示与目标图像匹配图像的个数. $ p(i) $ 表示序号为 $ i $ 图像在所有图像中的比例; 当 $g(i)$ =1时表示 $ i $ 号图像与目标图像匹配, 否则 $g(i)$ =0; $ A{P_i} $ 表示第 $ i $ 类的平均准确度, $ C $ 表示类别的个数. 并且所有的实验表现都是在single-shot评价模式下获得的, single-shot是指gallery中每个人的图像为一张.

$\left\{ { \begin{split} & A{P_i} = \dfrac{{\text{1}}}{m}\displaystyle \sum\limits_{i = 1}^n {(p(i) \cdot g(i))} \\ & {{mAP}} = \displaystyle \sum\limits_{i = 1}^n {\dfrac{{A{P_i}}}{C}} \end{split} } \right.$ (6)
2.3 实现细节

本文主干网络采用ResNet50[15]作为特征提取网络, 并移除其global average pooling层与classifier层. 使用BYOL[16]算法分别在Market1501和DukeMTMC-ReID对特征提取网络进行无监督预训练. 本实验中的姿态估计模型是HR-Net[17], 它在COCO数据集[18]上被预训练. 训练过程中, 输入网络的行人样本尺寸为256×128 (h×w), 模型训练迭代400个周期. 通过对比不同训练集批次的实验效果, 如图4, 本文将batch设为64. 初始化学习率被设置为3.5×10−5, 然后迭代到50, 150和350周期时分别衰减0.1倍, 选择Adam作为模型参数优化器.

图 4 不同batch参数下train_loss和val_loss的实验结果

2.4 PE的有效性

PE主要有两个组件: 编码器与双边增益函数. 首先, 进行消融试验确认每个组件都发挥了作用, 结果如表1. 实验表明只添加BOF时, 在单域条件下mAP和Rank-1最大分别增加了1.7%与1.6%; M→D的Rank-1提升了3.9%, D→M的mAP却下降了2.6%, 说明BOF具有修正姿态的作用, 但存在矫正盲区. 此时完全依赖姿态信息会让模型变得脆弱, 网络完全有机会学习到非行人的“虚假”特征, 使模型缺乏泛化性, 阻碍算法提高Re-ID的能力; 当添加编码器时, M→M与D→D的mAP与Rank-1分别得到7%和10%左右的大幅提升; 当编码器与BOF联合训练时, 模型无论是单域(训练与测试样本同源)还是跨域(训练与测试样本非同源)的性能都有极大提升, 且大于分别加入编码器与BOF的总和. 这说明PE有效增强了模型获取真正行人分类特征的能力, 验证了PE设计的意义性.

最后, 引入两个数据集: 半身(partial)数据集和遮挡(occluded)数据集. 为了更加全面地展现PE设计的合理性, 使用3组网络进行对比: 组别1 (†), 同样使用骨骼关键点作为辅助的网络; 组别2 (‡), 使用了切片对齐的网络; 组别3 (※), 针对遮挡和部分行人设计的网络. 最终, 本文提出的方法在Partial-ReID、Partial-iLIDS、Occluded-Duke和Occluded-ReID数据集上分别取得了Rank-1 77.2%、72.4%、56.7%与71.4%的良好表现, 见表2. 需要特别指出的是依据表2中组别1和2的结果证明: 在行人信息部分可见的错综场景下, 本模型取得良好Re-ID效果的主要原因不是使用了姿态估计或部件对齐方法. 更有力佐证了姿态修正方法的有效性.

表 1 PDFA主要组件消融实验效果(%)

表 2 半身与遮挡数据集准确率对比结果(%)

3 结论

本文的目的是让网络提取更具鲁棒性的判别特征. 于是, 提出姿态驱动的局部特征对齐的行人重识别模型. 首先, 通过重构姿态估计模型输出的热力图来获得高阶的人体姿态信息起到定位行人可见区域的作用, 减弱噪声的干扰, 避免非行人特征给模型带来的低鲁棒性. 其次, 参照其他优秀算法在模型中使用局部特征对齐的方法, 进一步提升网络在遮挡情况下对行人特征的匹配能力. 最终, 在众多的数据集上进行的大量实验证明了本文提出的方法的有效性.

参考文献
[1]
Karanam S, Gou MR, Wu ZY, et al. A systematic evaluation and benchmark for person re-identification: Features, metrics, and datasets. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(3): 523-536. DOI:10.1109/TPAMI.2018.2807450
[2]
Ye M, Shen JB, Lin GJ, et al. Deep learning for person re-identification: A survey and outlook. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 2872-2893. DOI:10.1109/TPAMI.2021.3054775
[3]
Zheng L, Shen LY, Tian L, et al. Scalable person re-identification: A benchmark. Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015. 1116–1124.
[4]
Zheng ZD, Zheng L, Yang Y. Pedestrian alignment network for large-scale person re-identification. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(10): 3037-3045. DOI:10.1109/TCSVT.2018.2873599
[5]
Sun YF, Xu Q, Li YL, et al. Perceive where to focus: Learning visibility-aware part-level features for partial person re-identification. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 393–402.
[6]
Zhao HY, Tian MQ, Sun SY, et al. SpindleNet: Person re-identification with human body region guided feature decomposition and fusion. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. 907–915.
[7]
Su C, Li JN, Zhang SL, et al. Pose-driven deep convolutional model for person re-identification. Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017. 3980–3989.
[8]
Gao S, Wang JY, Lu HC, et al. Pose-guided visible part matching for occluded person ReID. Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020. 11741–11749.
[9]
Miao JX, Wu Y, Liu P, et al. Pose-guided feature alignment for occluded person re-identification. Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019. 542–551.
[10]
Cao Z, Hidalgo G, Simon T, et al. OpenPose: Realtime multi-person 2D pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1): 172-186. DOI:10.1109/TPAMI.2019.2929257
[11]
Zheng ZD, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro. Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017. 3774–3782.
[12]
Zheng WS, Li X, Xiang T, et al. Partial person re-identification. Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015. 4678–4686.
[13]
He LX, Liang J, Li HQ, et al. Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 7073–7082.
[14]
Zhuo JX, Chen ZY, Lai JH, et al. Occluded person re-identification. Proceedings of the 2018 IEEE International Conference on Multimedia and Expo (ICME). San Diego: IEEE, 2018. 1–6.
[15]
He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. 770–778.
[16]
Grill JB, Strub F, Altché F, et al. Bootstrap your own latent a new approach to self-supervised learning. Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc., 2020. 21271–21284.
[17]
Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 5686–5696.
[18]
Lin TY, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context. Proceedings of the 13th European Conference on Computer Vision. Zurich: Springer, 2014. 740–755.
[19]
Zheng ZD, Yang XD, Yu ZD, et al. Joint discriminative and generative learning for person re-identification. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 2133–2142.
[20]
Sun YF, Zheng L, Deng WJ, et al. SVDNet for pedestrian retrieval. Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017. 3820–3828.
[21]
Zhang X, Luo H, Fan X, et al. AlignedReID: Surpassing human-level performance in person re-identification. arXiv:1711.08184, 2017.
[22]
Sun YF, Zheng L, Yang Y, et al. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline). Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018. 501–518.
[23]
Luo H, Fan X, Zhang C, et al. STNReID: Deep convolutional networks with pairwise spatial transformer networks for partial person re-identification. IEEE Transactions on Multimedia, 2020, 22(11): 2905-2913. DOI:10.1109/TMM.2020.2965491