7 个月前

摘要

我们研究了视觉对话中的多轮响应生成问题，其中响应是根据基于图像的对话历史生成的。给定一个三元组：一张图像、问答历史以及当前的问题，现有的所有方法都遵循监督学习范式下的编解码（即编码器-解码器）模式：多模态编码器将三元组编码为特征向量，然后将其输入到解码器中生成当前答案，该过程由真实标签进行监督。然而，这种传统的监督学习并未考虑不完美历史的影响，这违背了视觉对话的对话性质，从而使得编解码器更倾向于学习历史偏差而非上下文推理。为此，受强化学习中演员-评论家策略梯度的启发，我们提出了一种新的训练范式——历史优势序列训练（HAST）。具体而言，我们在历史中故意引入错误答案，以获得不利的评论，并观察历史错误如何影响编解码器未来的行为。这一影响通过计算“历史优势”来量化，“历史优势”是指从真实历史的真实奖励中减去不利评论所得到的值。此外，为了使编解码器对历史更加敏感，我们提出了一种新的注意力网络——历史感知协同注意网络（HACAN），该网络可以通过HAST有效训练。在三个基准数据集上的实验结果表明：VisDial v0.9&v1.0 和 GuessWhat?! 上提出的HAST策略始终优于最先进的监督学习方法。

源 PDF