2 个月前
RUBi:减少视觉问答中的单模态偏差
Remi Cadene; Corentin Dancette; Hedi Ben-younes; Matthieu Cord; Devi Parikh

摘要
视觉问答(VQA)是指回答有关图像的问题的任务。一些VQA模型经常利用单模态偏差来提供正确答案,而无需使用图像信息。因此,当在训练集分布之外的数据上进行评估时,这些模型的性能会大幅下降。这一关键问题使得它们在现实世界的应用中并不合适。我们提出了一种新的学习策略——RUBi,旨在减少任何VQA模型中的偏差。该策略降低了最具有偏差的样本的重要性,即那些不需查看图像即可正确分类的样本。它隐式地迫使VQA模型使用两种输入模态,而不是依赖于问题和答案之间的统计规律性。我们利用了一个仅基于问题的模型来捕捉语言偏差,通过识别这些不必要的规律性何时被使用来实现这一点。该模型通过影响基础VQA模型的预测,防止其学习这些偏差,从而动态调整损失以补偿偏差。我们在VQA-CP v2数据集上验证了我们的贡献,该数据集专门设计用于评估VQA模型在测试时面对与训练期间不同的问题偏差时的鲁棒性。我们的代码可在以下地址获取:github.com/cdancette/rubi.bootstrap.pytorch