
摘要
语言偏差是视觉问答(Visual Question Answering, VQA)领域中的一个关键问题,模型常常依赖数据集中的语言偏差做出最终决策,而忽视图像信息。这导致模型在分布外(out-of-distribution)数据上性能显著下降,并且缺乏充分的视觉可解释性。通过对现有鲁棒VQA方法的实验分析,我们指出VQA中的语言偏差主要源于两个方面:分布偏差(distribution bias)和捷径偏差(shortcut bias)。为此,我们提出一种新的去偏框架——贪婪梯度集成(Greedy Gradient Ensemble, GGE),该框架通过集成多个带有偏差的模型来实现无偏基础模型的学习。GGE采用贪婪策略,优先促使各偏差模型过度拟合于偏差数据分布,从而迫使基础模型更加关注那些难以被偏差模型正确处理的困难样本。实验结果表明,所提方法能够更有效地利用视觉信息,在无需额外标注的情况下,在VQA-CP数据集上实现了当前最优的诊断性能。