
摘要
大多数现有的视觉问答(VQA)研究工作都致力于提高预测答案的准确性,而忽视了对答案的解释。我们认为,答案的解释与答案本身同样重要,甚至更为重要,因为解释使得问题和回答过程更加易于理解和追踪。为此,我们提出了一项新的任务——VQA-E(带有解释的视觉问答),要求计算模型在生成预测答案的同时提供相应的解释。首先,我们构建了一个新的数据集,并将其纳入多任务学习架构中来解决VQA-E问题。我们的VQA-E数据集是从VQA v2数据集中通过智能利用可用的图像描述自动衍生出来的。我们进行了一项用户研究以验证由我们的方法合成的解释的质量。定量结果显示,来自解释的额外监督不仅能够生成富有洞察力的文字句子来证明答案的合理性,还能提升答案预测的性能。我们的模型在VQA v2数据集上的表现明显优于现有最先进的方法。