
摘要
视觉对话任务要求智能体与人类就一张图像进行对话。该任务是对视觉问答任务的扩展,即智能体需要回答关于图像的问题,但必须在考虑之前已发生的对话的前提下进行。因此,视觉对话的关键挑战在于在继续正确回答问题的同时,保持对话的一致性和自然性。我们提出了一种新颖的方法,该方法结合了强化学习和生成对抗网络(GANs),以生成更接近人类的回答。生成对抗网络有助于克服训练数据相对不足的问题,并且可以克服基于最大似然估计(MLE)的典型方法生成过于简短答案的倾向。重要的是,GAN被紧密集成到生成每个答案的人类可解释原因的注意力机制中。这意味着GAN的判别模型负责评估给定理由下候选答案是否由人类生成。这一点非常重要,因为它促使生成模型产生高质量的答案,并且这些答案得到了相关推理的良好支持。此外,该方法还在主要基准测试中取得了最先进的结果。