
摘要
我们提出了一种用于视觉问答(Visual Question Answering, VQA)任务的评估方法,旨在更有效地诊断模型出现“捷径学习”(shortcut learning)的情形。所谓捷径学习,是指模型通过利用数据中的虚假统计规律得出正确答案,但并未真正实现期望的推理行为。在将模型部署到真实场景之前,识别数据集中可能存在的捷径并评估其使用情况至关重要。当前VQA研究社区主要关注基于问题的捷径——例如,模型可能仅依赖于问题条件下的训练先验,而几乎忽略视觉证据,便将“天空的颜色是什么?”这一问题回答为“蓝色”。我们在此基础上更进一步,引入了同时涉及问题与图像的多模态捷径(multimodal shortcuts)的分析视角。我们首先通过挖掘VQA v2训练集中存在的简单预测规则(如词汇与视觉元素的共现模式),识别出潜在的捷径。随后,我们构建了VQA-CounterExamples(VQA-CE)评估协议,该协议基于我们筛选出的反例子集——即图像-问题-答案三元组,其中我们的规则会导致错误答案。我们利用这一新型评估框架,对现有主流VQA方法进行了大规模实证研究。结果表明,即便最先进的模型在该评估下表现依然不佳,且现有用于缓解偏差的技术在该场景中基本无效。我们的研究发现,以往针对VQA中基于问题的偏差研究,仅触及了这一复杂问题的一个方面。未来工作需更全面地考虑多模态捷径的形成机制与应对策略。我们方法的代码已开源,可通过 https://github.com/cdancette/detect-shortcuts 获取。