摘要:由图像到文本的跨模态行人重识别中缩小模态间差异一直是一个主要挑战, 针对该问题, 研究了一种基于CLIP-ReID (contrastive language-image pretraining-person re-identification)的改进方法. 引入了上下文调整网络模块和跨模态注意力机制模块. 上下文调整网络模块对图像特征进行深层次的非线性转换, 并有效地与可学习上下文向量相结合, 增强图像和文本间的语义关联性. 跨模态注意力机制模块通过对图像和文本特征进行动态加权和融合, 使得模型能够在处理一个模态的信息时考虑到另一模态, 提升模型在不同模态间的交互. 该方法分别在MSMT17、Market1501、DukeMTMC公共数据集上进行了评估, 实验结果在mAP值上分别提升了2.2%、0.5%、0.4%; 在R1值上分别提升了1.1%、0.1%、1.2%. 结果表明所提方法有效地提升了行人重识别的精度.