大模型优化的BERT图文多模态情感分析
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

自治区重点研发专项 (2023B01029-1, 2023B01029-2); 国家自然科学基金 (62266043); 自治区杰出青年科学基金 (2023D01E01); 自治区青年拔尖人才项目(2023TSYCCX0043); 天山创新团队计划(2023D14012)


LLM-optimized BERT for Image-text Multimodal Sentiment Analysis
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    方面级多模态情感分析属于情感分析以及观点挖掘方向的一个子领域, 旨在方面或属性级别开展情感和观点的分析. 在过去的图文多模态情感分析研究里, 研究者针对如何从图像和文本中提取并融合特征提出了各种方法, 由于图文信息初始所在的语义空间不一致, 最常用的方法是先从单模态中通过模块提取相应的深层信息, 将图像和文本特征映射到一个相同的深层语义空间中, 随后使用特征融合模块进行图文特征融合. 然而, 这种方法势必会引入多个模块用于处理图像和文本的特征并进行融合, 这不可避免增加了模型的参数量和复杂度. 随着如今大语言模型的发展, 在浅层空间将图像和文本的语义空间进行对齐已成为可能. 本研究利用通义千问开源大模型, 在预处理阶段通过提示词生成图像的文本描述, 让多模态情感分析回归到单模态情感分析任务, 仅通过文本处理模块就能得到最终的图文情感分析结果. 实验表明, 与先前的大多数模型相比, 该方法显著降低了参数量且取得了性能上的提升. 与同样轻量级的TISRI模型相比, 该模型在训练速度和资源占用上均取得了显著优势. 代码实现参考https://github.com/triangleXIV/ITFFT.

    Abstract:

    Aspect-level multimodal sentiment analysis involves analyzing sentiment and opinions at the aspect or attribute level. Previous studies on image-text multimodal sentiment analysis have explored various methods for extracting and fusing features from images and text. Since the initial semantic spaces of images and text are not aligned, common approaches extract deep features from each modality, map them to a shared deep semantic space, and then apply a fusion module. However, this inevitably increases model complexity. With advancements in large language models, aligning the semantic spaces of images and text at a shallow level has become feasible. This study leverages Qwen to generate textual descriptions of images through prompt engineering during preprocessing, transforming multimodal sentiment analysis into a unimodal sentiment analysis task. This enables sentiment analysis results to be obtained using only a text processing module. Experimental results show that, compared to most previous models, the proposed method significantly reduces the number of parameters while achieving performance improvements. Compared to the similarly lightweight TISRI model, it also demonstrates notable advantages in training speed and resource utilization. The code is available at: https://github.com/triangleXIV/ITFFT.

    参考文献
    相似文献
    引证文献
引用本文

杨宇飞,钱育蓉,公维军,侯树祥,路燚,陈嘉颖.大模型优化的BERT图文多模态情感分析.计算机系统应用,,():1-8

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-12-31
  • 最后修改日期:2025-02-12
  • 录用日期:
  • 在线发布日期: 2025-06-27
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号