基于模态去异质性和自适应融合的多模态会话情感识别
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(62141201); 重庆市自然科学基金面上项目(CSTB2022NSCQ-MSX1672); 重庆英才计划(CSTC2024YCJH-BGZXM0022); 重庆市教育委员会科学技术研究计划重大项目(KJZD-M202201102)


Multimodal Emotion Recognition in Conversation Based on Modality De-heterogenization and Adaptive Fusion
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    多模态会话情感识别任务旨在通过分析会话中产生的多种数据类型, 例如文本、音频和视觉, 从而理解会话中话语所要表达的情感. 因此许多基于多模态信息融合的方法被提出并且取得了不错的性能. 然而这些工作往往忽略了在不同情况下, 模态所展现的重要性是不同的. 此外这些工作也并没有考虑到多模态数据的异质性, 该问题会导致模态特征之间差距过大从而无法有效地进行模态信息的融合. 因此本文提出一种基于模态去异质性和自适应融合的会话情感识别模型, 以解决上述所提到的问题.首先利用共享的编码器将不同模态的特征映射到共享的语义空间中初步减少模态特征的差距, 然后使用共享卷积网络来最大化模态之间的共有语义信息从而消除模态特征之间的差距, 同时使用私有卷积网络来保持模态特征的多样性. 之后通过自注意力机制来学习出每个模态自身的重要性从而实现模态信息的自适应融合. 最后在两个公开的数据集上的实验结果表明, 本文所提出的模型优于以往的基线模型.

    Abstract:

    Multimodal emotion recognition in conversation aims to understand the emotions behind utterances in conversation by analyzing various types of data generated during the conversation, such as text, audio, and visual data. Therefore, numerous multimodal information fusion-based methods have been proposed and achieved notable performance. However, these methods often neglect that modality importance varies across different contexts, and they overlook the heterogeneity of multimodal data, which can lead to a significant gap between modal features, thereby hindering effective multimodal fusion. Therefore, this study proposes a modality de-heterogenization and adaptive fusion model for emotion recognition in conversation to address the aforementioned issues. First, a shared encoder is used to map features from different modalities into a shared semantic space to preliminarily reduce the gap between modal features. Then, shared convolutional networks are employed to maximize mutual semantic information across modalities, eliminating the gap between modal features, and private convolutional networks are used to maintain the diversity of modal features. Subsequently, the self-attention mechanism is employed to learn the importance of each modality, thereby achieving adaptive fusion of modal information. Finally, experimental results on two public datasets demonstrate that the proposed model outperforms existing baseline models.

    参考文献
    相似文献
    引证文献
引用本文

程佳玮,朱小飞,李曜辰,曹均皓,陈旭.基于模态去异质性和自适应融合的多模态会话情感识别.计算机系统应用,2025,34(9):213-224

复制
分享
相关视频

文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-01-21
  • 最后修改日期:2025-02-24
  • 录用日期:
  • 在线发布日期: 2025-07-23
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62661041 传真: Email:csa@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号