和实验室环境不同, 现实生活中的人脸表情图像场景复杂, 其中最常见的局部遮挡问题会造成面部外观的显著改变, 使得模型提取到的全局特征包含与情感无关的冗余信息从而降低了判别力. 针对此问题, 本文提出了一种结合对比学习和通道-空间注意力机制的人脸表情识别方法, 学习各局部显著情感特征并关注局部特征与全局特征之间的关系. 首先引入对比学习, 通过特定的数据增强方法设计新的正负样本选取策略, 对大量易获得的无标签情感数据进行预训练, 学习具有感知遮挡能力的表征, 再将此表征迁移到下游人脸表情识别任务以提高识别性能. 在下游任务中, 将每张人脸图像的表情分析问题转化为多个局部区域的情感检测问题, 使用通道-空间注意力机制学习人脸不同局部区域的细粒度注意力图, 并对加权特征进行融合, 削弱遮挡内容带来的噪声影响, 最后提出约束损失联合训练, 优化最终用于分类的融合特征. 实验结果表明, 无论是在公开的非遮挡人脸表情数据集(RAF-DB和FER2013)还是人工合成的遮挡人脸表情数据集上, 所提方法都取得了与现有先进方法可媲美的结果.
Different from the laboratory environment, the scenes of facial expression images in real life are complex, and local occlusion, the most common problem, will cause a significant change in the facial appearance. As a result, the global feature extracted by a model contains redundant information unrelated to emotions, which reduces the discrimination of the model. Considering this problem, a facial expression recognition method combining contrastive learning and the channel-spatial attention mechanism is proposed in this study, which learns local salient emotion features and pays attention to the relationship between local features and global features. Firstly, contrastive learning is introduced. A new positive and negative sample selection strategy is designed through a specific data augmentation method, and a large amount of easily accessible unlabeled emotion data is pre-trained to learn the representation with occlusion-aware ability. Then, the representation is transferred to the downstream facial expression recognition task to improve recognition performance. In the downstream task, the expression analysis of each face image is transformed into the emotion detection of multiple local regions. The fine-grained attention maps of different local regions of a face are learned using the channel-spatial attention mechanism, and the weighted features are fused to weaken the noise effect caused by the occlusion content. Finally, the constraint loss for joint training is proposed to optimize the final fusion feature for classification. The experimental results indicate that the proposed method achieves comparable results to existing state-of-the-art methods on both public non-occluded facial expression datasets (RAF-DB and FER2013) and synthetic occluded facial expression datasets.
人脸表情识别(facial expression recognition, FER)一直是计算机视觉(CV)领域的研究热点. 自动人脸表情分析在社交机器人、医疗、驾驶员疲劳监测等许多人机交互系统中具有重要的实际意义. 最近, 深度学习的发展显著提高了FER任务的性能, 研究人员在构建数据集和开发FER方法方面取得了很大的进展[
近年来, 自监督学习受到了广泛的关注, 其特点是不需要人工标注的类别标签信息, 直接利用数据本身作为监督信号来学习数据的特征表达, 并用于解决特定的下游任务. 自监督学习通过精心设计的前置任务来获取对下游任务有益的信息, 例如: 预测图像中两个分块之间的位置关系, 解决拼图问题或预测灰度图像的颜色信息等. 在计算机视觉中, 自监督学习已经应用至各种类型的下游任务, 比如常见的图像分类[
除了前置任务, 下游遮挡FER任务的设计也十分多样和重要[
对于遮挡状态下的FER, 目前主要有以下两种解决方法: 一是从局部未遮挡的区域进行研究. 二是去除遮挡区域, 但这些方法适用于实验室环境, 而真实场景中的遮挡是随机的, 难以检测. 由于人类的视觉处理系统可以快速扫描全局图像, 并获取需要更多关注的一个或多个局部区域, 抑制其他无用信息, 从而能够在遮挡下感知情绪. 受此启发, 考虑到遮挡FER比传统分类任务更需要关注细节, 而粗粒度的整体面部的特征学习方式难以挖掘并学好表情局部区域的情感特征, 细粒度的特征学习方式更能学习到表情中局部的细微变化[
针对上述研究内容, 本文提出基于对比学习的局部全局关系约束算法. 其解决思路是在前置任务中, 首先利用自监督对比学习, 构建经过特定数据增强的正样本对学习具有感知遮挡能力的表征, 再将学习到的信息迁移到下游FER任务, 以提高局部遮挡FER的性能. 下游FER任务中使用通道-空间注意力机制学习不同人脸局部区域的细粒度加权特征并融合, 削弱遮挡内容带来的噪声影响, 并用融合后的全局特征进行人脸表情分类. 为了进一步约束局部特征与融合后的全局表征之间的关系, 提出了约束损失来捕获人脸局部区域与全局之间的联系, 从而优化融合特征, 提高模型在遮挡场景下对表情分类的判别力. 本文的主要贡献总结如下: 1)为了学习具有感知遮挡能力的信息, 提出一种新的对比学习策略, 通过特定的随机数据增强方式学习来自同源样本的不同局部遮挡状态下的不变性. 2)将每张人脸图像的表情分析问题转化为多个局部区域的情感检测问题, 采用通道-空间注意力机制学习各个局部区域的细粒度特征并在特征层融合, 以达到更为鲁棒的人脸表情识别效果. 3)引入约束损失, 确保融合后的特征识别正确表情类别的概率大于每个局部区域, 并与分类损失联合训练, 为融合特征提供进一步的监督与优化.
为了自适应减少或消除遮挡内容和不相关区的影响, 学习区域之间的互补特征. 提出了基于对比学习的细粒度遮挡人脸表情识别方法, 该方法主要包含两个分支: 遮挡对比学习前置任务和精心设计的下游人脸表情识别任务. 本文方法总体框架如
本文方法总体框架图
对比学习方法能够在标注数据少的情况下学习具有判别力的表征, 并且将获得的表征迁移至下游任务中, 能够加快目标模型的收敛. 针对遮挡FER任务, 提出了一种具有感知遮挡能力的对比学习框架, 设计了一种新的选择正负样本的策略. 如
详细来说, 假设在一个训练批
其中,
遮挡对比学习预训练模块示意图
考虑到遮挡人脸表情识别比传统分类任务更需要关注细节, 才能突显情感特征的显著性与可区分性. 因此在下游FER任务中, 引入适用于细粒度分类的注意力机制来学习表情中局部的细微变化. 为了获得更有效的注意力, 提出将一张人脸图像的表情分析问题转化为多个局部区域的情感检测问题, 利用细粒度加权情感特征学习模块为人脸不同局部特征计算其细粒度注意力图, 将得到的注意力图与对应的局部特征相乘得到局部加权特征, 获得每个局部区域的显著细粒度特征, 并将获得的每个局部加权特征融合起来作为分类器的输入. 具体来说, 对于每张通过预处理操作获得的人脸表情图像
其中,
这
其中,
接着, 通过在每个局部特征上使用通道-空间注意力网络来探索该区域在不同通道和空间下的显著细粒度信息. 具体来说, 对于每个局部特征
其中,
其中,
为了保证图像信息的完整性, 添加了一个局部信息的融合操作来获取原始图像的高级语义特征. 具体来说, 计算出
为了约束局部特征与融合后的全局表征
其中,
模型的最终目的是正确地将表情样本
其中, 细粒度加权情感特征学习模块是局部特征学习阶段, 而局部全局深监督模块是全局特征优化阶段. 将这两个阶段结合, 可以同时学习更好的局部特征和更鲁棒的全局融合特征, 以获得更好的性能. 最终损失函数定义如下:
其中, 参数
为了验证本文提出的方法的有效性, 在两个具有挑战的人脸表情数据集上对提出的方法进行了评估, 分别为人脸表情数据集RAF-DB[
(1)预训练数据: 是从互联网上收集, 通过一组包括大约20个相关单词的关键词(如, 开心、微笑、大笑、有趣、悲伤、哭泣、惊讶、生气、厌恶、恐惧、恐怖等)和3个与身份相关的词(如, 小孩子、女人、男人等). 此外还添加了来自公开人脸表情数据集的图像进行预训练, 使数据分布更符合人脸表情数据. 预训练数据的图像总数约为12万张, 所有的图像都经过MTCNN[
(2) RAF-DB[
(3) FER2013[
对于对比学习预训练, 系统使用PyTorch深度学习框架进行训练, 模型在单个NVIDIA 2080Ti显卡上训练了800个周期(epochs). 随机数据增强主要采用随机裁剪、随机局部遮挡、随机水平翻转、随机颜色抖动和随机灰度缩放等操作. 而在下游FER任务中, 对于每张人脸表情图像, 首先将其分割成5个区域, 即
为了验证本文所提方法的每个模块对最终人脸表情识别的影响, 本小节在数据集RAF-DB和 FER2013的测试集上进行了消融实验并进行分析. 首先, 利用ResNet18 (Res18)作为主干网络复现了一些基础方法, 从是否使用遮挡对比学习预训练模块(OCL)、是否使用细粒度加权情感特征学习模块(FGW)以及是否使用局部全局深监督模块(
模型消融实验评估结果(%)
方法 | Pre | Pre-contrast | CSA |
|
RAF-DB
|
FER2013
|
Res18 | √ | — | — | — | 84.67 | 68.59 |
OCL+Res18 | — | √ | — | — | 85.90 | 70.51 |
OCL+Res18
|
— | √ | √ | — | 86.35 | 70.96 |
OCL+Res18
|
— | √ | √ | √ |
遮挡对比学习预训练模块: 当未加上遮挡对比学习的预训练时, “OCL+Res18”比基础方法“Res18”在RAF-DB和FER2013上的识别精度分别提升了1.23%和1.92%. 显而易见, 相比于其他预训练方法, 对比学习预训练能够提高下游任务的性能. 分析可知, 对比学习预训练步骤通过充分利用来自同源样本的不同局部遮挡条件下的相似性和不同实例间的差异性, 能够学习到具有感知遮挡能力的信息, 这对下游人脸表情识别任务是有益的.
细粒度加权情感特征学习模块: “OCL+Res18
局部全局深监督模块: 通道-空间注意力机制在多个研究工作中被证明是有效的, 但在所提方法中, 单独使用它会忽略局部与全局之间的关系. 通过添加局部全局深监督模块, 在局部区域和全局区域之间提供了额外的监督. 如
将本文所提出的方法和其他先进的(state-of-the-art, SOTA)人脸表情识别方法分别在非遮挡数据集RAF-DB和FER2013上进行性能比较, 主要包括基于先进网络结构的方法[
结果显示, 本文所提出的方法的识别性能优于目前领先的人脸表情识别方法. 所提方法在RAF-DB数据集上的性能提高了0.24%–3.87%, 超过了目前领先的方法. 在FER2013数据集, 所提方法的人脸表情识别精度最高提高了7.22%. BLOCK-FRENET[
本文方法和其他SOTA方法比较结果(%)
类别 | 方法 | RAF-DB | FER2013 |
先进网络结构 | BLOCK-FRENET[ |
— | 64.41 |
ALT[ |
84.55 | 69.85 | |
E-FCNN[ |
84.62 | 66.17 | |
IPA2LT[ |
86.77 | — | |
自监督学习 | SimCLR[ |
85.76 | 69.56 |
遮挡FER | PG-CNN[ |
83.27 | — |
gACNN[ |
85.07 | — | |
OAENet[ |
85.69 | — | |
RAN-ResNet18[ |
86.90 | — | |
本文方法 |
为了验证所提方法解决遮挡问题的有效性, 人工合成了源自RAF-DB测试集的遮挡表情数据集, 命名为occlusion-RAF-DB. 考虑到真实场景中人脸存在不同位置不同程度的复杂情况的局部遮挡, 所以在图像上添加不同比例的随机遮挡块作为噪声(0%, 5%, 10%, …, 30%), 并从实际场景出发, 以生活中常见的口罩作为遮挡物, 该口罩图片收集自互联网, 并根据人脸中的关键点固定在特定位置. 除遮挡属性外遮挡样本的类别及基本信息与非遮挡样本保持一致. 在Occlusion-RAF-DB数据集上分别使用基于手工特征的方法(SIFT[
本文方法与其他方法在遮挡FER任务的比较结果
实验结果表明, 无论是在无遮挡的原始数据集上, 还是在不同程度的人工合成的局部遮挡数据集上, 本文所提方法的性能大幅度优于基于手工特征的识别方法. 所提方法相比于基于手工特征的识别方法, 能更好地应对复杂的遮挡场景下的人脸表情识别. 该实验结果也表明深度学习方法学到的特征相比手工特征具有更强的分类能力. 此外, 本文所提方法性能明显优于Res18和DenseNet这两种深度学习识别方法.
随着人脸随机遮挡块面积的增加, 图中所有方法的平均性能都明显下降, 但本文所提出的方法具有较高的稳定性. 所提方法性能下降的最大幅度仅为13.79%, 而Res18和DenseNet这两种深度学习方法性能分别下降17.65%和18.57%. 这种稳定性归功于所提方法的中的细粒度加权情感特征学习模块降低了遮挡噪声对模型的影响. 由于表情产生的脸部形变比较细微, 分块学习每个局部的细节比直接学习整个全局粗粒度的特征能获得更好的情感信息. 并通过局部全局深监督模块约束局部特征与全局特征之间的联系, 从而优化融合后的特征. 总的来说, 这些结果证明了本文所提出的方法对局部遮挡下的人脸表情数据的有效性.
为了直观地验证本文所提出的方法的有效性, 本节将得到的部分结果进行可视化展示. 如
不同遮挡程度的情感显著区域定位可视化图
从
针对真实场景局部遮挡的情况, 本文提出了基于对比学习的细粒度遮挡人脸表情识别方法. 通过经特定数据增强的对比学习来获取具有感知遮挡能力的信息, 再采用细粒度加权情感特征学习模块获取每个局部区域的细粒度注意力图, 并将获得的每个局部加权特征进行融合, 削弱遮挡内容带来的噪声影响, 并用融合后的全局特征进行人脸表情分类. 最后引入了约束损失确保融合特征识别正确表情类别的概率大于每个局部区域, 进一步保证了在监督训练下融合特征的分类性能优于各局部特征. 本文所提出的方法在公开的非遮挡人脸表情数据集以及合成的遮挡人脸表情数据集上的实验均获得了很好的结果, 证明了所提方法的有效性和优越性. 在未来的工作中, 将尝试更具挑战性的遮挡人脸表情数据集.
李星燃, 张立言, 姚树婧. 结合特征融合和注意力机制的微表情识别方法. 计算机科学, 2022, 49(2): 4–11.
龙英潮, 丁美荣, 林桂锦, 等. 基于视听觉感知系统的多模态情感识别. 计算机系统应用, 2021, 30(12): 218–225, doi: 10.15888/j.cnki.csa.008235.
武中华. 基于图卷积多标签学习的复合人脸表情识别. 计算机系统应用, 2022, 31(1): 259–266, doi: 10.15888/j.cnki.csa.008273.
et al. A simple framework for contrastive learning of visual representations. Proceedings of the 37th International Conference on Machine Learning. Online: PMLR, 2020. 1597–1607.]]>
et al. Instance localization for self-supervised detection pretraining. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021. 3986–3995.]]>
et al. Self-supervised human depth estimation from monocular videos. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020. 647–656.]]>
南亚会, 华庆一. 遮挡人脸表情识别深度学习方法研究进展. 计算机应用研究, 2022, 39(2): 321–330, doi: 10.19734/j.issn.1001-3695.2021.08.0307.
Ng PC, Henikoff S. SIFT: Predicting amino acid changes that affect protein function. Nucleic Acids Research, 2003, 31(13): 3812–3814, doi: 10.1093/nar/gkg509.
Zhao GY, Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915–928, doi: 10.1109/TPAMI.2007.1110.
et al. A hybrid method of feature extraction for facial expression recognition. Proceedings of the 7th International Conference on Signal Image Technology & Internet-based Systems. Dijon: IEEE, 2011. 422–425.]]>
et al. Feature fusion of HOG and WLD for facial expression recognition. IEEE/SICE International Symposium on System Integration. Kobe: IEEE, 2013. 227–232.]]>
苏志明, 王烈, 蓝峥杰. 基于多尺度分层双线性池化网络的细粒度表情识别模型. 计算机工程, 2021, 47(12): 299–307, 315, doi: 10.19678/j.issn.1000-3428.0060133.
et al. Occlusion robust face recognition based on mask learning with pairwise differential Siamese network. Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019. 773–782.]]>
et al. CBAM: Convolutional block attention module. Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018. 3–19.]]>
et al. Visual categorization with bags of keypoints. Proceedings of the 8th European Conference on Computer Vision. Prague: Springer, 2004. 59–74.]]>
Zhang KP, Zhang ZP, Li ZF,
et al. Challenges in representation learning: A report on three machine learning contests. Proceedings of the 20th International Conference on Neural Information Processing. Daegu: Springer, 2013. 117–124.]]>
Tang Y, Zhang XM, Hu XP,
et al. Annealed label transfer for face expression recognition. Proceedings of the 30th British Machine Vision Conference. Cardiff: BMVA Press, 2019. 104.]]>
Shao J, Cheng QY. E-FCNN for tiny facial expression recognition. Applied Intelligence, 2021, 51(1): 549–559, doi: 10.1007/s10489-020-01855-5.
et al. Patch-gated CNN for occlusion-aware facial expression recognition. Proceedings of the 2018 24th International Conference on Pattern Recognition. Beijing: IEEE, 2018. 2209–2214.]]>
Li Y, Zeng JB, Shan SG,
Wang ZN, Zeng FW, Liu SC,
Wang K, Peng XJ, Yang JF,
et al. Densely connected convolutional networks. Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. 2261–2269.]]>