基于KLSTM的互信息视听情绪识别
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(U21A20157)


KLSTM-based Mutual Information Audiovisual Emotion Recognition
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对视听情绪识别中如何高效融合音视频特征并准确提取时间依赖性情绪信息的问题, 本研究提出了一种基于KLSTM (Kolmogorov-Arnold long short-term memory)的互信息视听情绪识别模型. 利用互信息方法进行特征选择和自适应窗口处理, 从音频和视频信号中提取情绪相关的关键片段, 以减少信息冗余; 在特征提取中引入KLSTM网络, 有效捕捉视听模态信号的时间依赖特性; 在融合阶段, 通过跨模态一致性最大化确保音视频特征的协调性与互补性. 实验结果显示所提模型在CMU-MOSI和CMU-MOSEI数据集上均优于现有基准模型, 验证了其在多模态情绪识别任务中的有效性.

    Abstract:

    Addressing the challenge of efficiently fusing audio and video features while accurately extracting time-dependent emotion information in audiovisual emotion recognition, a mutual information-based audiovisual emotion recognition model is proposed, incorporating Kolmogorov-Arnold long short-term memory (KLSTM). Feature selection and adaptive window processing, based on the mutual information approach, are employed to extract emotionally relevant key segments from audio and video signals, effectively reducing information redundancy. The KLSTM network is integrated into feature extraction to capture the temporal dependencies of audiovisual modal signals. In the fusion stage, cross-modal consistency maximization ensures the coordination and complementarity of audio and video features. Experimental results demonstrate that the proposed model outperforms existing benchmark models on both CMU-MOSI and CMU-MOSEI datasets, validating its effectiveness in multimodal emotion recognition tasks.

    参考文献
    相似文献
    引证文献
引用本文

罗志鑫,刘知贵,唐荣,潘志祥,李理.基于KLSTM的互信息视听情绪识别.计算机系统应用,,():1-8

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-01-07
  • 最后修改日期:2025-02-12
  • 录用日期:
  • 在线发布日期: 2025-06-24
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号