摘要:由于从单一行为模态中获取的特征难以准确地表达复杂的人体动作, 本文提出基于多模态特征学习的人体行为识别算法. 首先采用两条通道分别提取行为视频的RGB特征和3D骨骼特征, 第1条通道C3DP-LA网络由两部分组成: (1) 包含时空金字塔池化(Spatial Temporal Pyramid Pooling, STPP)的改进3D CNN; (2) 基于时空注意力机制的LSTM, 第2条通道为时空图卷积网络(ST-GCN), 然后, 本文将提取到的两种特征融合使其优势互补, 最后用Softmax分类器对融合特征进行分类, 并在公开数据集UCF101和NTU RGB + D上验证. 实验表明, 本文提出的方法与现有行为识别算法相比具有较高的识别准确度.