摘要:可解释推荐算法利用行为信息和其他相关信息不仅生成推荐结果而且提供推荐理由, 从而增加推荐的透明度和可信度. 传统的可解释推荐算法往往局限于分析评分数据和文本数据, 对图像这类数据利用并不充分, 且并没有很好地考虑模态间的有效融合方式, 难以充分挖掘不同模态之间的内在关联. 针对上述问题, 提出一种融合多模态特征的可解释推荐模型, 该模型采用特征融合技术, 从多模态角度提高推荐解释的质量与个性化. 首先, 设计多模态特征提取方法, 基于CLIP图像编码器和文本编码器分别提取用户和物品的文本特征和图像特征. 其次, 采用交叉注意力技术实现文本和图像的跨模态融合, 增强模态间的语义相关性. 最后, 将多模态信息与交互信息结合, 联合优化模态对齐、评分预测与解释生成任务. 实验结果表明, 所提出的方法在3个多模态推荐数据集上都表现出了明显优势, 尤其在提升解释质量方面.