摘要:传统图像描述算法存在提取图像特征利用不足、缺少上下文信息学习和训练参数过多的问题, 提出基于ViLBERT和双层长短期记忆网络(BiLSTM)结合的图像描述算法. 使用ViLBERT作为编码器, ViLBERT模型能将图片特征和描述文本信息通过联合注意力的方式进行结合, 输出图像和文本的联合特征向量. 解码器使用结合注意力机制的BiLSTM来生成图像描述. 该算法在MSCOCO2014数据集进行训练和测试, 实验评价标准BLEU-4和BLEU得分分别达到36.9和125.2, 优于基于传统图像特征提取结合注意力机制图像描述算法. 通过生成文本描述对比可看出, 该算法生成的图像描述能够更细致地表述图片信息.