摘要:方面级多模态情感分析属于情感分析以及观点挖掘方向的一个子领域, 旨在方面或属性级别开展情感和观点的分析. 在过去的图文多模态情感分析研究里, 研究者针对如何从图像和文本中提取并融合特征提出了各种方法, 由于图文信息初始所在的语义空间不一致, 最常用的方法是先从单模态中通过模块提取相应的深层信息, 将图像和文本特征映射到一个相同的深层语义空间中, 随后使用特征融合模块进行图文特征融合. 然而, 这种方法势必会引入多个模块用于处理图像和文本的特征并进行融合, 这不可避免增加了模型的参数量和复杂度. 随着如今大语言模型的发展, 在浅层空间将图像和文本的语义空间进行对齐已成为可能. 本研究利用通义千问开源大模型, 在预处理阶段通过提示词生成图像的文本描述, 让多模态情感分析回归到单模态情感分析任务, 仅通过文本处理模块就能得到最终的图文情感分析结果. 实验表明, 与先前的大多数模型相比, 该方法显著降低了参数量且取得了性能上的提升. 与同样轻量级的TISRI模型相比, 该模型在训练速度和资源占用上均取得了显著优势. 代码实现参考https://github.com/triangleXIV/ITFFT.