
摘要
尽管近年来视觉问答(Visual Question Answering, VQA)取得了显著进展,当前的VQA模型仍倾向于捕捉训练集中的表层语言相关性,难以在测试集上实现对不同问答分布的良好泛化。为缓解语言偏差问题,近期多项研究引入了仅基于问题的辅助模型,用于正则化目标VQA模型的训练,并在VQA-CP数据集上取得了领先性能。然而,由于现有方法设计复杂,难以使基于集成的模型具备理想VQA模型所应具备的两个关键特性:1)视觉可解释性:模型在决策时应依赖正确的视觉区域;2)问题敏感性:模型应对问题中的语言变化保持敏感。为此,我们提出一种与模型无关的反事实样本生成(Counterfactual Samples Synthesizing, CSS)训练方案。CSS通过遮蔽图像中的关键物体或问题中的关键词汇,并赋予不同的真实答案,生成大量反事实训练样本。在使用原始样本与生成样本联合训练后,VQA模型被迫关注所有关键的视觉区域与语言成分,从而显著提升其视觉可解释性与问题敏感性。与此同时,模型的整体性能也得到进一步增强。大量消融实验验证了CSS的有效性。特别地,在基于LMH模型的基础上,我们在VQA-CP v2数据集上取得了58.95%的创纪录性能,相比之前方法提升达6.5%。