为解决卷积神经网络提取特征遗漏、手势多特征提取不充分问题, 本文提出基于残差双注意力与跨级特征融合模块的静态手势识别方法. 设计了一种残差双注意力模块, 该模块对ResNet50网络提取的低层特征进行增强, 能够有效学习关键信息并更新权重, 提高对高层特征的注意力, 然后由跨级特征融合模块对不同阶段的高低层特征进行融合, 丰富高级特征图中不同层级之间的语义和位置信息, 最后使用全连接层的Softmax分类器对手势图像进行分类识别. 本文在ASL美国手语数据集上进行实验, 平均准确率为99.68%, 相比基础ResNet50网络准确率提升2.52%. 结果验证本文方法能充分提取与复用手势特征, 有效提高手势图像的识别精度.
To solve the problems of missing feature extraction by convolutional neural network and insufficient multi-feature extraction of a gesture, this study proposes a static gesture recognition method based on a residual double attention module and a cross-level feature fusion module. The designed residual double attention module can enhance the low-level features extracted by a ResNet50 network, effectively learn the key information, update the weight, and improve the attention to high-level features. Then, the cross-level feature fusion module fuses the high-level and low-level features in different stages to enrich the semantic and location information between different levels in the high-level feature map. Finally, the Softmax classifier of the fully connected layer is used to classify and recognize the gesture image. The experiment is carried out on the American sign language (ASL) dataset. The average recognition accuracy is 99.68%, which is 2.52% higher than that of the basic ResNet50 network. The results show that the proposed method can fully extract and reuse gesture features and effectively improve the recognition accuracy of gesture images.
我国听力残疾人群居各类残疾人群之首, 却由于手语低普及度与文字交流不便性, 与健听人士之间的沟通障碍仍未得到有效解决. 手语是听障人士在日常交际中最为熟悉的自然语言, 通过手的手形、位置、运动轨迹等表达不同语义. 手势识别作为一个热门研究方向, 可实现手语的可读化, 有效打破聋健交互障碍. 此外, 手势识别也可满足人机自然交互需求, 推动机器控制、体感游戏、虚拟现实等应用领域发展. 但由于手势动作多样性、语义复杂性、时空差异性, 手势识别仍面临着众多挑战.
根据静态手势识别的研究方法, 看可分为基于数据手套的手势识别与基于计算机视觉的手势识别. 基于数据手套的手势识别是利用多种传感器获取手部的不同角度信息、运动轨迹信息和时间信息, 将不同信息融合进行分类. 该方法可获得准确的手部信息, 识别率较高, 但其需依赖大量穿戴式传感器, 人机交互的易用性与自然性较低, 使用成本较高, 日常生活不易普及. 相比之下, 基于计算机视觉的手势识别展现出更明显的优势, 利用相关设备采集手势原始图像, 经过图像处理、特征提取、分类识别等步骤获取手势的语义结果, 其中特征提取至关重要, 直接影响着识别准确率.
传统手势特征算法主要基于人工设计特征, 如利用方向梯度直方图(histogram of oriented gradient, HOG)[
近年来, 随着深度学习的迅速发展, 卷积神经网络以自动提取特征、权值共享、输入图像与网络结构结合良好等优势[
针对上述问题, 本文提出了基于残差双注意力与跨级特征融合模块的静态手势识别方法, 其主要贡献如下: (1)设计一个残差双注意力模块, 对特征图不同通道与空间赋予不同权值, 为重要特征分配高注意力, 使网络关注更特定的高层特征, 减轻复杂背景的干扰. (2)引入轻量的通道注意力与空间注意力模块, 降低网络过深、参数过多带来的过拟合风险, 减少网络的冗余, 加快收敛速度. (3)增加跨级融合, 将低层特征与不同阶段的高层特征进行融合, 提高特征复用率, 有效丰富不同层次判别特征.
为解决卷积神经网络提取特征遗漏、手势多特征提取不充分问题, 本文提出基于残差双注意力与跨级特征融合的手势识别方法, 该方法首先将预处理后的原始手势图像输入ResNet50基础网络提取低层特征提供充足的感受野, 给出低层特征图, 然后通过改进的残差双注意力模块, 从通道与空间两个层面为不同分辨率特征信息分配权重, 使网络更专注于有目标的判别特征, 高效完成高层特征的提取, 再将不同阶段的高低层特征附加恒等映射关系实现跨级特征融合, 提高特征复用率, 增益不同层次的判别特征. 完成多层特征融合后, 先对特征张量进行全局平均池化, 防止过拟合, 增强特征与类别上映射关系, 最后将特征张量输入到由全连接层和Softmax层组成的分类器中完成手势图像的分类识别. 具体流程如
手势识别流程图
手势图像特征具有高维、多样、强背景干扰等性质, 浅层网络难以充分留存大量有效特征信息. 由此, 本文采用ResNet50残差网络作为低层特征提取网络, 提供充足感受野, 提取丰富的关键特征, 输出低层特征图. ResNet50网络结构如
ResNet50网络结构图
原始输入手势图像通过ResNet50基础网络后获得的低层特征图中保留了手势的大部分轮廓与纹理等显著特征, 但其中仍存在大量背景、光照带来的干扰信息, 影响分类的准确率, 需要构建更深层次的卷积神经网络, 增强对判别特征的关注, 排除背景特征的干扰. 故本文设计基于残差双注意力的高层特征提取模块, 在保留特征图原始尺寸的基础上从通道与空间两个层面为不同分辨率特征信息分配权重, 使网络更专注于有目标的判别特征, 忽视背景特征的影响, 为避免过拟合与网络退化风险, 采用残差结构进行搭建. 具体结构如
残差双注意力模块结构图
首先利用1×1的卷积核对输入特征图进行降维[
其中,
本文所采用的双注意力模块结构如
其中,
CBAM双注意力模块结构图
(1) 通道注意力
持续的卷积操作会导致特征图分辨率大幅度变小, 并且不同通道的信息简单进行融合会造成分割精度下降. 输入手势图像经过 ResNet50网络提取特征后, 特征图中包含2048个通道, 每个通道均提供图像不同特征, 例如形状、线条、空间关系等, 不同特征对图像分类所做贡献也大不相同, 故本文使用通道注意力使网络关注不同通道之间的特征关系, 自主学习一组权重系数, 然后动态加权到每个特征通道上. 通过赋予每个特征通道不同的权重, 使网络自动学习到不同特征通道的重要程度, 更加关注对网络有意义的通道, 从而突出判别特征, 抑制次要特征.
传统通道注意力网络SENet[
通道注意力模块结构图
其中,
(2) 空间注意力
空间注意力模块是对通道注意力的补充, 弥补通道注意力无法充分捕捉图像特定目标位置信息的缺陷. 不是手势图像中所有的区域对分类的贡献都是同等重要的, 低层特征图仅仅映射原始输入图像, 将注意力集中在手部区域, 减少背景信息提供的干扰信息, 能够有效提高手势图像分类性. 因此, 本文采用一种轻量的空间注意力模块, 其结构如
空间注意力模块结构图
其中,
高层特征增强对判别特征的关注, 排除背景特征的干扰, 但经过深层网络的提取之后容易丢失较多的手势细节信息, 而低层特征保留了手势的大部分轮廓与纹理等细节特征, 但由于提取时的层次较浅, 特征表达的能力不强. 由此, 本文在主干网络中的每个模块后都加入侧向输出用于提供不同层次手势特征信息, 其中ResNet50侧向输出弱语义性的低层特征, 各层残差注意力模块侧向输出较高语义性的高层特征. 将不同尺度的高低层特征附加密集连接融合, 使获取的高级特征图聚合更广泛的语义与位置信息, 提高特征的复用率, 减少不同层次信息的丢失.
本文设计的跨级特征融合模块如
其中,
跨级特征融合模块结构图
(1) 实验环境
本文实验均是在 macOS 11.3.1系统下、采用基于Python的TensorFlow 深度学习框架进行的. 处理器为 2.3 GHz双核Intel Core i5, 显卡为Nvidia Tesla V100 (32 GB), TensorFlow 版本为2.5.0, 编译环境为 Python 3.7.3.
(2) 实验超参数设置
在训练过程中, 通过大量实验选择最优超参数, 以提高网络的拟合性能. 最终选用Adam算法作为模型参数优化器, 设置初始学习率为0.00001, 批处理大小为16, 共迭代 300 次, 采用迁移学习方法训练网络模型.
(3) 实验数据
在实验中, 选用ASL美国手语数据集与BSL孟加拉手语数据集进行训练. ASL数据集为美国手语字母图像的集合, 包含29类手势, 其中26类为字母A–Z, 其余3类为space、del、nothing, 其手势图像背景复杂, 存在与肤色相近的颜色, 且拍摄亮度、距离各有不同. 通过ASL数据集重点测试本文模型在手势图像背景复杂情况下的识别效果. 随机选择其中6000张手语图像, 按照4:1的比例划分训练集和测试集, 每幅图像对像素大小为200×200, 部分手语图像如
ASL手语数据集部分手语图像
BSL手语数据集部分手语图像
为减少计算量并提升训练速度, 在训练前先对手势图像进行预处理, 将原始手势图像尺寸归一化为256×256的RGB三通道图像, 再对RGB图像进行标准化, 将[0, 255]之间的整数缩小为[0, 1]之间的浮点数.
(4) 评估指标
为使实验结果更为可靠, 本文在经过随机乱序后的验证集上执行5次, 取得平均识别准确率作为训练结果, 准确率是指对于给定数据集, 在不考虑样本实际类别的情况下, 正确分类识别的样本数占所有样本数的比例:
为验证所采用的ResNet50基础网络模型是最适合且有效的, 本文将VGG16、VGG19、Xception、ResNet50、ResNet152这4种网络分别作为基础网络进行对比分析. 采用ASL数据集作为训练集和测试集, 为每个模型训练设置相同实验参数, 并确保其在相同条件下完成训练, 直至收敛.
不同基础网络准确率随迭代次数变化曲线图
模型的参数量、每轮平均训练时间与平均识别准确率比较如
不同基础网络损失值随迭代次数变化曲线图
不同基础网络性能实验结果对照
模型 | 参数量 (M) | 每轮平均训练时间 (s) | 准确率 (%) |
VGG16 | 19.4 | 24 | 97.67 |
VGG19 | 24.7 | 26 | 97.50 |
Xception | 90.8 | 39 | 97.58 |
ResNet50 | 93.5 | 36 | 99.68 |
ResNet152 | 128.3 | 48 | 98.21 |
为选择最为合适的网络层数, 使网络识别精度达到最优, 本文保持其他参数设置不变, 依次选择不同残差注意力块个数进行实验, 初始学习率设置为0.00001, 在训练集上一次迭代训练40个epoches后, 每个epoch包含375张手语图像. 不同个数残差注意力块所对应网络的参数量、每轮平均训练时间与平均识别准确率如
不同残差注意力块个数性能实验结果对照
残差注意力块个数 | 参数量 (M) | 每轮平均训练时间 (s) | 准确率 (%) |
0 | 24.8 | 13 | 97.16 |
1 | 50.5 | 20 | 98.21 |
2 | 72.0 | 29 | 98.28 |
3 | 93.5 | 36 | 99.68 |
4 | 115.1 | 41 | 98.00 |
5 | 136.6 | 47 | 97.90 |
由
本文方法核心在于残差注意力模块与跨级特征融合, 为验证各模块对整体网络模型的效能, 本节在相同其余实验参数情况下, 基于ASL美国手语数据集进行多组消融实验, 以说明本文网络中所有设置均为最优. 实验以ResNet50为基础网络, 在基础网络上添加残差模块、通道注意力机制、空间注意力机制、CBAM、跨级特征融合, 初始学习率设置为0.00001, 在训练集上一次迭代训练40 epoches后, 实验结果如
消融实验结果对照
模型 | ResNet50 | 通道
|
空间
|
CBAM | 残差模块 | 跨级特征融合 | 准确率 (%) |
1 | √ | — | — | — | — | — | 97.16 |
2 | √ | √ | — | — | — | — | 97.59 |
3 | √ | — | √ | — | — | — | 97.93 |
4 | √ | √ | √ | √ | — | — | 98.26 |
5 | √ | √ | √ | √ | √ | — | 98.40 |
本文 | √ | √ | √ | √ | √ | √ | 99.68 |
模型2、模型3相比模型1基础的ResNet50网络识别准确率分别提升了0.43%与0.77%, 这是注意力模块中的自适应权重更新带来的效益, 能够增强对判别特征的关注, 而空间注意力的效益大于通道注意力, 是因为空间注意力模块将目标更专注于手势部分的重要特征, 减少复杂背景的干扰. 模型4同时引入两种注意力机制, 准确率提升了1.08%, 双注意力机制能使整体网络学习到更多目标区域的特征. 模型5在含有CBAM模块的网络中引入残差模块, 使准确率提升了0.14%. 本文模型增加跨级特征融合模块使得准确率提升1.28%, 可见其在分类识别中的显著效果, 能够充分利用不同阶段提取的高低层判别特征. 糅合残差注意力模块与跨级特征融合, 可达到最优的识别效果, 相比模型1基础ResNet50网络准确率提升2.52%, 这有效验证本方法在所有设置实现最优. 实验证明, 通过深层卷积神经网络对原始输入图像进行特征提取与描述过程中, 易于受到背景、光照等特征干扰, 丢失某些有用的语义特征, 无法保证获得满意的分类识别结果. 通过基于残差双注意力与跨级特征融合模块的手势识别方法, 很大程度上提高判别特征提取与复用, 促进识别准确率的提升.
为验证提出方法的先进性与普适性, 本文将在ASL美国手语数据集上实验的5种手势识别方法与在BSL孟加拉手语数据集上实验的5种手势识别方法分别与本文提出方法进行对比, 具体结果如
ASL数据集上现有手势识别方法准确率对比
方法 | 准确率 (%) | 年份 |
文献[ |
93.81 | 2018 |
文献[ |
95.00 | 2019 |
文献[ |
99.44 | 2020 |
文献[ |
98.07 | 2021 |
文献[ |
96.30 | 2021 |
本文 | 99.68 | 2022 |
BSL数据集上现有手势识别方法准确率对比
方法 | 准确率 (%) | 年份 |
文献[ |
98.66 | 2018 |
文献[ |
96.12 | 2020 |
文献[ |
99.22 | 2020 |
文献[ |
98.75 | 2020 |
文献[ |
98.75 | 2020 |
本文 | 99.62 | 2022 |
本文针对现有卷积神经网络提取特征遗漏、手势多特征提取不充分问题, 提出了基于残差双注意力与跨级特征融合模块的静态手势识别方法. 该方法使用ResNet50网络提取低层手势特征, 并设计基于残差双注意力的高层特征提取模块, 从通道与空间两个层面为不同分辨率特征信息分配权重, 增益判别特征, 抑制背景特征, 然后将不同层次的高低层特征进行跨级特征融合, 提高特征的复用率, 减少特征遗漏. 实验结果表明, 与现有方法相比, 本文提出的静态手势识别方法在ASL美国手语数据集上的识别效果更具先进性与有效性. 但本文手势识别研究局限于静态图像, 而现实生活中的手势交互必然是动态连续的, 因此未来工作将研究动态手势识别, 致力于设计出高效、准确的用于动态手势识别的网络模型.
Lowe DG. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60(2): 91–110.
吴晓雨, 杨成, 冯琦. 基于Kinect的手势识别算法研究及应用. 计算机应用与软件, 2015, 32(7): 173–176, 276.
唐文权, 徐武, 文聪, 等. 复杂背景下基于肤色检测的动态手势分割与识别. 科学技术与工程, 2019, 19(33): 330–335.
李航, 厉丹, 朱晨, 等. 基于卷积神经网络的图像识别系统. 电脑知识与技术, 2020, 16(10): 196–197, 200.
et al. Sign language recognition using convolutional neural networks. Proceedings of ECCV 2014 Workshops. Cham: Springer, 2015. 915–922.]]>
GARCIA B, VIESCA S A. Real-time American sign language recognition with convolutional neural networks. Convolutional Neural Networks for Visual Recognition, 2016, 2: 225–232.
Jain V, Jain A, Chauhan A,
Yang L, Qi Z, Liu ZH,
吴晓凤, 张江鑫, 徐欣晨. 基于Faster R-CNN的手势识别算法. 计算机辅助设计与图形学学报, 2018, 30(3): 468–476.
陈影柔, 田秋红, 杨慧敏, 等. 基于多特征加权融合的静态手势识别. 计算机系统应用, 2021, 30(2): 20–27.
赵文清, 孔子旭, 周震东, 等. 增强小目标特征的航空遥感目标检测. 中国图象图形学报, 2021, 26(3): 644–653.
et al. CBAM: Convolutional block attention module. Proceedings of Computer Vision—ECCV 2018. Cham: Springer, 2018. 3–19.]]>
吴若有, 王德兴, 袁红春, 等. 基于多分支全卷积神经网络的低照度图像增强. 激光与光电子学进展, 2020, 57(14): 141021.
宋东情, 朱定局, 贺超. 基于多模型特征与精简注意力融合的图像分类. 计算机系统应用, 2021, 30(11): 210–216.
Chong TW, Lee BG. American sign language recognition using leap motion controller with machine learning approach. Sensors, 2018, 18(10): 3554.
Lee CKM, Ng KKH, Chen CH,
Rivera-Acosta M, Ruiz-Varela JM, Ortega-Cisneros S,
Sharma S, Kumar K. ASL-3DCNN: American sign language recognition technique using 3-D convolutional neural networks. Multimedia Tools and Applications, 2021, 80(17): 26319–26331.
et al. Bengali handwritten alphabet recognition using deep convolutional neural network. Proceedings of 2019 5th International Conference on Computer, Communication, Chemical, Materials and Electronic Engineering (IC4ME2). Rajshahi: IEEE, 2019. 1–4.]]>
et al. Bengali handwritten character classification using transfer learning on deep convolutional network. Proceedings of 11th International Conference on Intelligent Human Computer Interaction. Cham: Springer, 2020. 138–148.]]>
et al. Bengali hand sign gestures recognition using convolutional neural network. Proceedings of 2020 2nd International Conference on Inventive Research in Computing Applications (ICIRCA). Coimbatore: IEEE, 2020. 636–641.]]>