一种基于强化注意力机制和序列优化的自动化图像题注方法-机器人与智能系统-中国传动网

一种基于强化注意力机制和序列优化的自动化图像题注方法

文：商汤科技泛安防智能视频部门技术经理张帅、商汤科技算法工程师张垚2018年第一期

图像题注旨在为输入图像自动生成自然语言的描述语句，可用于辅助视觉障碍者感知周围环境和帮助人们更便捷地处理大量非结构化视觉信息等场景。当前的主流方法主要是基于深度编码器-解码器框架作端到端的训练优化，但由于视觉概念和语义实体之间对应的偏差，导致在题注中对于图像细粒度语义的识别和理解不足。本文针对此问题，提出了基于检测特征和蒙特卡罗采样的注意力机制和基于改进策略梯度的序列优化（Sequence Optimization）方法，并将二者融合成一个用于图像题注的整体框架。

在我们的方法中，为了更好地提取图像的强语义特征，首先用Faster R-CNN取代一般的卷积网络作为编码器；在此基础上，基于蒙特卡罗采样设计一个强化注意力机制（Reinforce Attention），以筛选出当前时刻值得关注的视觉概念，实现更精准的语义引导。在序列优化阶段，我们利用折扣因子和词频-逆文档频率（TF-IDF）因子改进了策略梯度的评估函数，使得生成题注时具有更强语义性的单词有更大的奖赏值，从而贡献更多的梯度信息，更好地引导序列优化。我们主要在MS COCO数据集上进行训练和评测，模型在当前所有权威的度量指标得分上都取得了显著的提升。以CIDEr指标为例，和当前比较代表性的方法[5]和[7]相比，我们的模型在最终得分上分别提升了8.0%和4.1%。

图像题注旨在为一幅输入图像生成相匹配的自然语言描述，其工作流程如下图1（a）所示。开放域的图像题注是一项颇具挑战的任务，因为它不但需要对图像中的所有局部和全局实体作实现细粒度语义理解，而且还需要生成这些实体间的属性和联系。从学术价值上来看，图像题注领域的研究极大地激发着关于计算机视觉（CV）和自然语言处理（NLP）两大领域如何更好地交叉融合；而在现实应用的维度上，图像题注的进展对于构建一个更好的AI交互系统来说至关重要，尤其是在辅助视觉障碍者更好地感知世界，以及更全面地协助人们更加便捷地组织和理解海量的非结构化视觉信息等方面，有很大的价值。

图像题注领域的研究进展非常快，近期产生了很多标志性的工作。目前基于深度编码器-解码器框架（Encoder-Decoder）的视觉注意力模型（Attention Models），在图像题注的各个标准数据集上都取得了较好的成绩。视觉注意力模型主要用于提取空间显著区域，以更好地映射到待生成词汇。基于此衍生了大量的改进工作，最近有部分研究工作致力于将自底向上（Bottom-up）的物体检测和属性预测方法（Object Detection&Attribute Prediction）和注意力机制融合到一起，在评价指标得分上取得了不错的提升。但所有的这些工作，都采用的是Word-Level的训练和优化方法，这导致了如下两个问题：第一个是“Exposure Bias”，是指模型在训练中根据给定的真实（Ground-Truth）单词去计算下一个单词的最大似然，而在测试中却需要根据实际的生成（Generation）来预测下一个单词；第二个问题是模型在训练和评估中目标的不一致（Inconsistency），因为在训练时采用交叉熵损失函数，而在评估模型生成的题注（Generated Captions）时，却采用的是针对NLP领域专用的一些不可微的度量方法，比如BLEU[11]，ROUGE，METEOR和CIDEr等。

为了解决上述问题，最近的一些工作创新性地引入了基于强化学习的优化方法。借助策略梯度和基准函数（Baseline Function）将原先的单词级别（Word-Level）的训练改进成序列化（Sequence-Level）的模式，极大地弥补了原先方案的不足，提升了图像题注的性能。然而，这些方法也存在一些局限，比如在[5]和[10]中，通过一次序列采样生成一句完整题注，得到一个奖赏值（Reward），而后默认所有的单词在梯度优化时共享这一个值。显然，在多数情况下这样是不合理的，因为不同的单词词性不同、语义有侧重、隐含的信息量显著差异，应该被区分为不同的语言实体（Linguistic Entity），在训练中对应不同的视觉概念（Visual Concepts）。为了解决这些问题，我们提出了如下的融合强化注意力机制和序列优化的图像题注方法。

在我们的方法中，首先用Faster R-CNN取代一般的卷积网络作为编码器，对输入图像抽取基于物体检测和属性预测的强语义特征向量（Semantic Features）。之后，我们基于蒙特卡罗采样设计一个强化注意力机制（Reinforce Attention），以筛选出当前时刻值得关注的视觉概念，实现更精准的语义实体引导。在序列优化（Sequence Optimization）阶段，我们采用策略梯度方法计算序列的近似梯度。而在计算每个采样单词的奖赏值时，我们利用折扣因子和词频-逆文档频率（TF-IDF）因子改进了原始的策略梯度函数，使得生成题注时具有更强语义性的单词有更大的奖赏值，从而为训练贡献更多的梯度信息，以更好地引导序列优化。在实验中，我们在MS COCO数据集上的各项性能指标得分均超过了当前的基线方法，证明了方法设计的有效性。

图像题注方法

总体上，图像题注的方法可以被分为两大类：一类是基于模板的（template-based），另一类是基于神经网络的（neural network-based）。前者主要通过一个模板来完成题注生成，而这个模板的填充需要基于对象检测、属性预测和场景理解的输出。而本文中提出的方法采用的是跟后者一致的框架，所以下面我们主要介绍基于神经网络做图像题注的相关工作。

近些年，加载了视觉注意力机制的深度编码器-解码器的一系列工作，在图像题注任务的各个标准数据集上都取得了非常不错的结果。此类方法的核心机制在于：融合了视觉注意力机制的卷积网络和循环网络，能够更好地挖掘隐含的上下文视觉信息，并在端到端地训练充分融合局部和全局的实体信息，从而为题注生成提供更强的泛化能力。之后的很多工作从此出发：一方面是继续强化和改善注意力机制的功效，提出了一些新的计算模块或网络架构；另一方面，部分工作致力于将基于检测框架的特征提取和表征方法与注意力机制融合到一起，以获得更好地实体捕捉能力。

但是目前基于视觉注意力的方法使用交叉熵的纯单词级别（Word-Level）训练模式存在两个显著的缺陷：Exposure Bias和Inconsistency。为了更好地解决这两个问题，基于强化学习的优化方法被引入图像题注任务中。其中尤为代表性的工作是[10]，他们将问题重新建模为一个策略梯度优化问题，并采用REINFORCE算法进行优化；为了减小方差、提升训练稳定性，[10]提出了一个混合增量式的训练方法。随后[5][15]等工作基于此做了不同的改进，他们主要是提出了更好的基准函数（Baseline Function），以更大限度地、更高效地提升序列优化的效果。但是当前的这些方法存在的一个显著的局限性是：在对序列梯度进行采样逼近时，默认一句话中的所有单词享有共同的奖赏值。而这显然是不合理的。为了弥补这个缺陷，我们引入了两种优化策略：第一，从强化学习中评估函数的计算出发，引入折扣因子，更精准地计算每一个单词采样回传的梯度值；第二，是从直接度量驱动（Metric-Driven）的初衷出发，将TF-IDF因子引入了奖赏计算中，以更好地发挥强语言实体对于序列整体优化的驱动作用。

方法

我们的模型整体工作框架如图1所示，其中（a）是一个从输入到输出的前向计算流程，（b）为基于强化学习的序列优化过程。下面我们将从语义特征提取，题注生成器和序列优化三个方面，依次递进地介绍我们的方法细节。

图1（a）模型前向计算流程

图1（b）基于强化学习的序列优化过程

对于输入图像，与常用做法不同的是，我们并非提取卷积特征向量，而是基于物体检测和属性预测提取图像的语义特征向量，使得在训练过程中可以更好地与真实题注语句中的语言实体相匹配。在本文中，我们用 Faster R-CNN 作为图像题注模型中的视觉编码器。给定输入图片，需要输出的语义特征记为：。我们对 FasterR-CNN 最后的输出做一个非极大值抑制（Non-maximumSuppression），对于每一个选中的候选区域 i，定义为该区域的池化后的卷积特征。这里我们首先用在 ImageNet 上预训练过的 ResNet-101 对编码器进行初始化，随后将其放到Visual Genome 数据集上加训。Visual Genome 数据集是一个用来做属性预测的数据集，通过这一轮加训，我们将池化卷积特征和属性预测的输出向量进行串联（concatenation）运算，从而得到最终的语义特征向量。