2 个月前

让历史发挥作用:面向历史优势的序列训练在视觉对话中的应用

Tianhao Yang; Zheng-Jun Zha; Hanwang Zhang
让历史发挥作用:面向历史优势的序列训练在视觉对话中的应用
摘要

我们研究了视觉对话中的多轮响应生成问题,其中响应是根据基于图像的对话历史生成的。给定一个三元组:一张图像、问答历史以及当前的问题,现有的所有方法都遵循监督学习范式下的编解码(即编码器-解码器)模式:多模态编码器将三元组编码为特征向量,然后将其输入到解码器中生成当前答案,该过程由真实标签进行监督。然而,这种传统的监督学习并未考虑不完美历史的影响,这违背了视觉对话的对话性质,从而使得编解码器更倾向于学习历史偏差而非上下文推理。为此,受强化学习中演员-评论家策略梯度的启发,我们提出了一种新的训练范式——历史优势序列训练(HAST)。具体而言,我们在历史中故意引入错误答案,以获得不利的评论,并观察历史错误如何影响编解码器未来的行为。这一影响通过计算“历史优势”来量化,“历史优势”是指从真实历史的真实奖励中减去不利评论所得到的值。此外,为了使编解码器对历史更加敏感,我们提出了一种新的注意力网络——历史感知协同注意网络(HACAN),该网络可以通过HAST有效训练。在三个基准数据集上的实验结果表明:VisDial v0.9&v1.0 和 GuessWhat?! 上提出的HAST策略始终优于最先进的监督学习方法。

让历史发挥作用:面向历史优势的序列训练在视觉对话中的应用 | 最新论文 | HyperAI超神经