摘要:图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型. 对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究, 提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型. 该模型采用编码器-解码器结构, 在特征提取网络Inception-v4中加入CBAM, 并作为编码器提取图片的重要特征信息, 将其送入解码器长短期记忆网络(LSTM)中, 生成对应图片的描述语句. 采用MSCOCO2014数据集中训练集和验证集进行训练和测试, 使用多个评价准则评估模型的准确性. 实验结果表明, 改进后模型的评价准则得分优于其他模型, 其中Model2实验能够更好地提取到图像特征, 生成更加准确的描述.