基于多模态特征学习的人体行为识别方法

doi:10.15888/j.cnki.csa.007875

AIPUB归智期刊联盟

微信公众号

网站二维码

2025年4月24日 0:51 星期四

首页 > 过刊浏览>2021年第30卷第4期 >146-152. DOI:10.15888/j.cnki.csa.007875

PDF HTML阅读 XML下载导出引用引用提醒

基于多模态特征学习的人体行为识别方法
DOI:
                        10.15888/j.cnki.csa.007875
                    
CSTR:
                        
                    
作者:
                        周雪雪周雪雪
上海电力大学 计算机科学与技术学院, 上海 200090
在期刊界中查找
在百度中查找
在本站中查找
雷景生雷景生
上海电力大学 计算机科学与技术学院, 上海 200090
在期刊界中查找
在百度中查找
在本站中查找
卓佳宁卓佳宁
上海电力大学 计算机科学与技术学院, 上海 200090
在期刊界中查找
在百度中查找
在本站中查找

                    
作者单位:
作者简介:
通讯作者:
中图分类号:
基金项目:国家自然科学基金(61672337)

Human Action Recognition Algorithm Based on Multi-Modal Features Learning

Author:

ZHOU Xue-Xue
ZHOU Xue-Xue
College of Computer and Science, Shanghai University of Electric Power, Shanghai 200090, China
在期刊界中查找
在百度中查找
在本站中查找
LEI Jing-Sheng
LEI Jing-Sheng
College of Computer and Science, Shanghai University of Electric Power, Shanghai 200090, China
在期刊界中查找
在百度中查找
在本站中查找
ZHUO Jia-Ning
ZHUO Jia-Ning
College of Computer and Science, Shanghai University of Electric Power, Shanghai 200090, China
在期刊界中查找
在百度中查找
在本站中查找

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

由于从单一行为模态中获取的特征难以准确地表达复杂的人体动作, 本文提出基于多模态特征学习的人体行为识别算法. 首先采用两条通道分别提取行为视频的RGB特征和3D骨骼特征, 第1条通道C3DP-LA网络由两部分组成: (1) 包含时空金字塔池化(Spatial Temporal Pyramid Pooling, STPP)的改进3D CNN; (2) 基于时空注意力机制的LSTM, 第2条通道为时空图卷积网络(ST-GCN), 然后, 本文将提取到的两种特征融合使其优势互补, 最后用Softmax分类器对融合特征进行分类, 并在公开数据集UCF101和NTU RGB + D上验证. 实验表明, 本文提出的方法与现有行为识别算法相比具有较高的识别准确度.

关键词:行为识别;改进3D CNN;时空注意力;时空图卷积网络;特征融合

Abstract:

Since the features obtained from a single action mode fail to accurately express complex human actions, this study proposes a recognition algorithm for human actions based on multi-modal feature learning. First, two channels extract the RGB and 3D skeletal features from the action video. The first channel, i.e., the C3DP-LA network, consists of an improved 3D CNN with Spatial Temporal Pyramid Pooling (STPP) and LSTM based on spatial-temporal attention. The second channel is the Spatial-Temporal Graph Convolutional Network (ST-GCN). Then the two extracted features are fused and classified by Softmax. Furthermore, the proposed algorithm is verified on the public data sets UCF101 and NTU RGB+D. The results show that this algorithm has higher recognition accuracy than its counterparts.

Key words:action recognition;improved 3D CNN;Spatial-Temporal Attention (ST-Att);Spatial-Temporal Graph Convolutional Network (ST-GCN);feature fusion

引用本文

周雪雪,雷景生,卓佳宁.基于多模态特征学习的人体行为识别方法.计算机系统应用,2021,30(4):146-152

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:2020-08-25
最后修改日期:2020-09-15
录用日期:
在线发布日期: 2021-03-31
出版日期:

微信公众号

网站二维码

引用本文

分享

文章指标

历史

文章二维码

微信公众号

网站二维码

引用本文

分享

微信扫一扫：分享

文章指标

历史

文章二维码