图像描述是计算机视觉的主要任务之一, 其主要目的是为计算机提供图像, 计算机可以将图片与图片中各对象之间的关系结合起来自动生成相应的自然语言描述. 这是一项非常具有挑战性的任务[1-4]. 随着深度学习的发展, 注意力机制已经广泛应用于图像描述, 在该领域常用的编码器-解码器框架中起着举足轻重的作用. 然而, 当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(Long Short-Term Memory, LSTM)隐藏状态之间的相关性, 这也可能导致累积误差. 众所周知, 单词是由LSTM的隐藏状态直接指导生成, 如果隐藏状态与特征向量之间的相关性不够清晰, 则很难指导生成正确的单词. 目前的注意力机制, 往往忽略了前一时刻和后一时刻注意力结果对当前时刻的影响, 导致生成的句子不是很理想, 因为对于一个句子, 单词与单词之间具有一定的相关性, 当前时刻生成的单词会受到前后时刻生成单词的影响.
为了在一定程度上解决该问题, 本文提出了类时序注意力网络(Similar Temporal Attention Network, STAN), 该网络扩展了传统的注意力机制, 目的是加强注意力结果与隐藏状态在不同时刻的相关性. 首先, STAN对图像进行编码并提取其自下而上的特征, 然后将编码后的图像特征传递给LSTM进行解码, 同时对LSTM的隐藏状态和图像特征施加注意力, 最后通过注意力融合槽(AFS)将两个相邻LSTM片段的注意力结果引入到下一时刻的网络循环中, 以增强注意力结果与隐藏状态之间的相关性.
本文中, 创新点可以总结归纳为如下3点:
1)本文设计一种新的类时序注意力网络来进行图像描述, 该网络扩展了传统的注意力机制, 以增强注意力在不同时刻与隐藏状态之间的相关性.
2)本文提出注意力融合槽(Attention Fusion Slot, AFS)的概念, 它可以用于实现不同时刻注意力结果之间的跳跃连接. 我们设计了隐藏状态开关(Hidden State Switch, HSS)来指导生成单词, 将其与AFS相结合, 在一定程度上可以解决累积误差的问题.
3)通过大量的实验对提出的模型进行了分析与验证. MSCOCO数据集上的实验结果表明了所提出的基于类时序注意力机制的图像描述方法的有效性.
2 相关工作 2.1 图像描述近年来, 随着深度学习技术的发展, 有关图像描述的文献越来越多. 早期的图像描述方法基于规则-模板[5, 6], 是一种经典方法. 该方法通过目标检测技术[7-9]将视觉概念, 对象和属性转换为单词和短语, 然后将它们组合成具有固定语言模型的句子. 另一种比较主流的方法是基于神经网络的编码器-解码器框架, 受机器翻译的启发发展而来[10]. 如何通过改进网络架构来提高模型性能已逐渐成为图像描述领域的主流研究方向.
当前, 最流行的图像特征提取工具是自下而上的注意力模型[11], 该模型已在许多文章中被使用, 本文也是如此. 相信随着技术的进一步发展, 更加有效的图像特征提取方法会被提出. 另外, 近年来出现了许多有关场景图的文章. Yang等人[12]通过图卷积将每个对象及其自身属性与其他对象之间的关系集成在一起, 搭建出场景图并规范化网络模型的输入. 同时, 提出了词典D的概念, 经过文本语料库训练之后, 再用来初始化描述模型, 目的是在语料库中引入一些先验知识. 场景图和先验知识的引入有效地促进了图像描述的发展. 当然, 图像描述领域最常见的文章是关于注意力机制的改进和网络结构的创新. 尽管场景图是一个非常热门的话题, 但由于发展刚起步不久, 相对而言, 此类论文较少. 此外, 强化学习已逐渐发展成为一种有效的模型性能改进方法. Rennie等人[13]使用强化学习来优化图像描述模型, 并提出了自关键序列训练(SCST)方法, 该方法使用测试阶段模型的输出对奖励进行归一化处理, 而不是评估基准模型的归一化奖励.
2.2 注意力机制注意力模型(Attention Mechanism, AM)[14, 15]最初用于机器翻译, 现已成为神经网络领域的重要概念. 如今, 注意力机制已成为深度学习神经网络的重要组成部分, 并且在自然语言处理, 统计学习, 语音翻译和计算机视觉领域具有大量的应用. 注意力机制源自人类的视觉直觉, 人类视觉快速扫描图像全局以获得需要关注的目标区域, 即所谓的关注焦点, 也即是目标区域具有更多的关注资源, 在抑制其他无用信息的同时, 更多地关注目标的详细信息. 注意力机制首先计算每个候选向量的重要性得分, 然后通过Softmax函数将其标准化为权重, 最后将这些权重应用于候选向量以生成注意力结果, 即加权平均向量[16]. 注意力机制有许多扩展的变体. Yang等人[17]提出了堆叠式注意力网络, 该网络通过多次迭代来实现对图像的区域关注. Lu等人[18]提出了一种带有视觉标记的自适应注意力模型, 在每个时间步长, 模型都会决定是更依赖图像还是更依赖视觉标记. 此外, 视觉哨兵会存储解码器已经知道的信息. Chen等人[19] 基于编码器-解码器模型层设计了空间和通道注意力卷积神经网络(CNN), 该网络使得原始的CNN多层特征图能够自适应句子上下文. Vaswani等人[20]放弃了基于卷积神经网络(CNN)或循环神经网络(RNN)的传统编码器-解码器模型, 通过单独使用注意力, 在不影响最终实验结果的前提下达到减少计算量、提高并行效率的目的. Huang等人 [21]提出了一个“双重注意力”(AoA)模块, 该模块扩展了常规的注意力机制来进一步确定注意力结果和查询之间的相关性. 但是, 网络框架的创新和注意力机制的改进都相对比较简单, 同时, 注意力机制和循环神经网络结合不够紧密. 注意力本身没有时序性, 但是将其嵌入神经网络后, 我们可以认为该注意力具有时序性, 那么如何使注意力机制更有效地集成到神经网络中, 是一个值得思考的问题.
3 类时序注意力网络 3.1 整体框架本文使用自下而上的注意力模型[11](由目标检测区域特征提取框架Faster RCNN和ResNet-101[22]CNN组合而成)来提取图像特征V, 然后将所有视觉特征馈入LSTM进行字幕生成. 其中, 解码框架采用两个连续的LSTM作为循环单元, 并且对每一时刻的隐藏状态和图像特征施加注意力, 以增强它们之间的相关性. 由于单词是由隐藏状态来指导生成, 因此单词与图像特征之间的相关性也需要增强. 整个网络架构如图1所示.
给定一组图像特征
${h_t} = f_{\rm {LSTM}}({x_t}, {h_{t - 1}}, {\hat v_{t - 1}})$ | (1) |
其中,
3.2 类时序注意力层
对于描述模型, 本文将第1个LSTM层称为类时序注意力层, 将第2个LSTM层称为语言注意力层, 使用
$x_t^1 = \left[ {h_{t - 1}^2, \overline v , {W_e}{\prod _t}} \right]$ | (2) |
其中,
当在时刻
${\hat v_{t - 1}} = {\lambda _1}\hat v_{t - 1}^1 + {\lambda _2}\hat v_{t - 1}^2$ | (3) |
${a_{i,t}} = w_a^T\tanh \left( {{W_v}{v_i} + {W_h}h_t^1 + {W_h}{{\hat v}_{t - 1}}} \right) $ | (4) |
${\alpha _t} = Softmax ({a_t})$ | (5) |
其中,
${\hat v_t} = \sum\limits_{i - 1}^k {{\alpha _{i, t}}{v_i}} $ | (6) |
语言注意力层的输入由施加注意力之后的图像特征和类时序注意力层的输出级联而成, 用下式表示:
$x_t^2 = \left[ {\hat v_t^1, h_t^1} \right]$ | (7) |
本文认为前一时刻LSTM隐藏状态中包含的信息对当前时刻单词的生成具有促进作用. 为了充分利用LSTM隐藏状态之间的关系, 本文设计了隐藏状态开关(HSS), 如图3所示. 计算公式如下.
$h = \left\{ \begin{array}{l} h_t^2,{S_h} = 0\\ h_t^2 + {\lambda _h}h_t^1,{S_h} = 1 \end{array} \right. $ | (8) |
其中,
$P({y_t}\left| {{y_{1:t - 1}}} \right. ) = Softmax ({W_y}h + {b_y})$ | (9) |
其中,
$P({y_{1:T}}) = \mathop \prod \limits_{t = 1}^T p({y_t}\left| {{y_{1:t - 1}}} \right. )$ | (10) |
在训练过程中, 对于给定的标签序列
${L_{XE}}(\eta ) = - \sum\limits_{t = 1}^T {\log } \left( {{p_\eta }\left( {y_t^*\left| {y_{1:t - 1}^*} \right.} \right)} \right)$ | (11) |
交叉熵训练结束后, 本文将采用目前比较流行的强化学习方法来训练和优化最终模型. 为了尽量减少负面期望得分, 对交叉熵训练得到的最终模型进行重新训练和初始化. 计算公式如下:
${L_R}(\eta ) = - {E_{{y_{1:T}} \sim {p_\eta }}}[{S_r}({y_{1:T}})]$ | (12) |
其中,
${\nabla _\eta }{L_R}(\eta ) \approx - \left( {{S_r}\left( {y_{1:T}^s - {S_r}\left( {\hat y} \right)} \right)} \right){\nabla _\eta }\log \left( {{p_\eta }\left( {y_{1:T}^s} \right)} \right)$ | (13) |
4 实验 4.1 数据集
本文在图像描述领域官方数据集MSCOCO上评估和验证基于类时序注意力机制的图像描述模型 [23]. MSCOCO数据集包含123287张图片, 其中82783张图片作为训练集, 40504张图片作为验证集, 每张图片对应5个标签. 此外, 为了方便研究人员评估模型, MSCOCO官方提供了40 775张图片作为在线测试集. “Karpathy”数据集 [24]用于模型线下评估和测试, 其中5000张图片作为验证集, 5000张图片作为测试集, 其余图片作为训练集. 本文首先将所有标签语句转换为小写, 然后过滤掉出现次数少于5次的单词, 最后得到一个含有9487个单词的字典. 在实验过程中, 使用领域常用评估策略, 包括BLEU [25], METEOR [26], ROUGE-L[22], CIDEr [27]和SPICE [28], 来评估所提出的方法, 并与其他方法进行比较.
其中, BLEU为机器翻译中常用的双语精度评估方法, 是用于评估模型生成的句子和实际句子的差异的指标, 取值范围在0.0到1.0之间, 如果两个句子完美匹配, 那么BLEU是1.0, 反之, BLEU为0.0. METEOR是精度召回率评估方法, 基于单精度的加权调和平均数和单字召回率, 解决一些BLEU标准中固有的缺陷, 也是机器翻译常用的评估方法之一. ROUGE-L是召回率评估方法, 采用召回率作为指标, 将模型生成的句子与实际句子的n元组贡献统计量作为评判依据. CIDEr是基于共识的图像描述评估方法, 将句子看作“文档”, 并将其表示成向量, 然后计算实际句子与模型生成的句子的余弦相似度, 作为打分. SPICE是基于语义的图像描述评估方法, 以名词为中心, 通过度量实际句子与模型生成句子的场景图相似度来对两个句子做语义匹配.
4.2 实验结果如图4所示, 是本文提出的方法训练的模型与基线模型在MSCOCO数据集上的结果比较, 可以看出, 对于同一张图片, 该模型生成的描述与图片内容契合度更高, 语言的准确性和流利性更好.
如表1所示, 对于所提出的方法, 本文在MSCOCO数据集上进行了离线测试. 实验结果表明, 与基线模型(Top-Down模型)[11]和其他方法相比, 本文训练的模型具有更优越的性能. 从表1的离线测试结果中可以看到, 与基线模型相比, 本文的方法训练的模型的评估指标都有所提高, 尤其是CIDEr提高了2.7个百分点. 本文训练的模型通过AFS使注意力机制具有了时序性, 可以与循环神经网络更加紧密地连接, 产生包含更丰富有效信息的隐藏状态向量, 从而生成更高质量的自然语言描述.
4.3 实验分析
本文在Top-Down模型的基础上, 进一步完善了注意力机制, 在MSCOCO官方数据集上取得了较好的结果. 在实验过程中, 我们发现语言注意力层的隐藏状态和类时间注意力层的隐藏状态可以按一定比例融合以获得新的状态向量. 此向量生成单词的质量比单独使用语言注意力层的隐藏状态略好. 因此, 我们设计了HSS来微调隐藏状态. 表2是HSS状态对模型性能的影响.
在实验过程中, 如表3所示, 本文选择了4个模型进行集成实验, 分别为
$Mode{l_a} = \{ Model_1, Model_2, Model_3\} $ | (14) |
$Mode{l_b} = \{ Model_1, Model_2, Model_4\} $ | (15) |
${m_a} = \{ {m_1}, {m_2}, {m_3}\} $ | (16) |
${m_b} = \{ {m_1}, {m_2}, {m_4}\} $ | (17) |
其中,
从表4中不难看出, 对于参与集成的模型, 性能最佳的模型将被赋予最高的权重, 性能稍低的模型将被赋予较低的权重, 这样可以获得比较理想的集成效果.
5 结论与展望
本文提出了一种新型类时序注意力网络用于图像描述, 该网络扩展了传统的注意力机制, 以增强注意力结果与隐藏状态在不同时刻之间的相关性. 此外, 提出“注意力融合槽”(AFS)的概念, 用于实现不同时刻注意力结果之间的跳跃连接. 设计隐藏状态开关, 用于指导单词的产生, 结合AFS在一定程度上解决了累积误差的问题. 同时, 进行了广泛的实验验证分析该方法. 在未来的工作中, 本团队会继续研究注意力机制和模型框架的改进方式, 并考虑引入场景图来进一步提升模型性能.
[1] |
Kulkarni G, Premraj V, Ordonez V, et al. BabyTalk: Understanding and generating simple image descriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2891-2903. DOI:10.1109/TPAMI.2012.162 |
[2] |
Yang YZ, Teo CL, Daumé IIIH, et al. Corpus-guided sentence generation of natural images. Proceedings of 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, UK. 2011. 444–454.
|
[3] |
Mitchell M, Dodge J, Goyal A, et al. Midge: Generating image descriptions from computer vision detections. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France. 2012. 747–756.
|
[4] |
Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, UK. 2015. 1473–1482.
|
[5] |
Yao BZ, Yang X, Lin L, et al. I2T: Image parsing to text description. Proceedings of the IEEE, 2010, 98(8): 1485-1508. DOI:10.1109/JPROC.2010.2050411 |
[6] |
Socher R, Li FF. Connecting modalities: Semi-supervised segmentation and annotation of images using unaligned text corpora. Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA. 2010. 966–973.
|
[7] |
Ren SQ, He KM, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031 |
[8] |
Wan F, Wei PX, Jiao JB, et al. Min-entropy latent model for weakly supervised object detection. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. 2018. 1297–1306.
|
[9] |
Wan F, Liu C, Ke W, et al. C-MIL: Continuation multiple instance learning for weakly supervised object detection. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA. 2019. 2194–2203.
|
[10] |
Cho K, van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar. 2014. 1724–1734.
|
[11] |
Anderson P, He XD, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. 2018. 6077–6086.
|
[12] |
Yang X, Tang KH, Zhang HW, et al. Auto-encoding scene graphs for image captioning. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA. 2019. 10677–1068.
|
[13] |
Rennie SJ, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. 2017. 1179–1195.
|
[14] |
Rensink RA. The dynamic representation of scenes. Visual Cognition, 2000, 7(1–3): 17-42. DOI:10.1080/135062800394667 |
[15] |
Corbetta M, Shulman GL. Control of goal-directed and stimulus-driven attention in the brain. Nature Reviews Neuroscience, 2002, 3(3): 201-215. DOI:10.1038/nrn755 |
[16] |
Xu K, Ba JL, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention. Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France. 2015. 2048–2057.
|
[17] |
Yang ZC, He XD, Gao JF, et al. Stacked attention networks for image question answering. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. 2016. 21–29.
|
[18] |
Lu JS, Xiong CM, Parikh D, et al. Knowing when to look: Adaptive attention via a visual sentinel for image captioning. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. 2017. 3242–3250.
|
[19] |
Chen L, Zhang HW, Xiao J, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. 2017. 6298–6306.
|
[20] |
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, CA, USA. 2017. 6000–6010.
|
[21] |
Huang L, Wang WM, Chen J, et al. Attention on attention for image captioning. Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Republic of Korea. 2019. 4633–4642.
|
[22] |
Lin CY, Gao JF, Cao GH, et al. Automatic evaluation of summaries: USA, 20080189074. (2008-08-07).
|
[23] |
Lin TY, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context. Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland. 2014. 740–755.
|
[24] |
Karpathy A, Li FF. Deep visual-semantic alignments for generating image descriptions. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA. 2015. 3128–3137.
|
[25] |
Papineni K, Roukos S, Ward T, et al. Bleu: A method for automatic evaluation of machine translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, PA, USA. 2002. 311–318.
|
[26] |
Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. Proceedings of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Ann Arbor, MI, USA. 2005. 65–72.
|
[27] |
Vedantam R, Zitnick CL, Parikh D. CIDEr: Consensus-based image description evaluation. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA. 2015. 4566–4575.
|
[28] |
Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic propositional image caption evaluation. Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands. 2016. 382–398.
|
[29] |
Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA. 2015. 3156–3164.
|
[30] |
Yao T, Pan Y, Li Y, et al. Boosting image captioning with attributes. IEEE International Conference on Computer Vision. IEEE Computer Society, 2017. 4904–4912.
|
[31] |
Jiang W, Ma L, Jiang YG, et al. Recurrent fusion network for image captioning. Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany. 2018. 499–515.
|