
大规模语言模型(Large Language Models, LLMs)在众多自然语言理解与生成任务中表现出色。我们观察到,LLMs 在视频问答(Video Question Answering, VideoQA)任务中能够有效利用语言捷径(linguistic shortcuts)进行时间与因果推理。然而,这类先验知识往往导致模型在 VideoQA 任务中表现欠佳,因为模型过度依赖问题本身,即产生语言偏差(linguistic bias),而忽视了视觉内容信息。这种现象也被称为“脱离语境的猜测”(ungrounded guesses)或“幻觉”(hallucinations)。为在充分利用 LLM 先验知识的同时缓解上述问题,我们提出一种新颖的框架——Flipped-VQA。该框架通过将输入源对与目标标签进行反转,促使模型学习所有 $\langle$视频 V, 问题 Q, 答案 A$\rangle$ 三元组之间的复杂关系:具体而言,模型需分别基于 VQ、VA 和 QA 三类配对,预测 A、Q 和 V。这种双向建模机制有助于增强模型对多模态信息的联合理解,降低对问题的过度依赖。本文中,我们将 Flipped-VQA 框架应用于 LLaMA 模型,构建了 LLaMA-VQA,并在五个具有挑战性的 VideoQA 基准测试上均取得了优于现有基于 LLM 与非 LLM 方法的性能表现。此外,Flipped-VQA 具有良好的通用性,可适配多种主流 LLM(如 OPT 和 GPT-J),并在各类模型上均实现性能稳定提升。实验结果表明,Flipped-VQA 不仅增强了对语言捷径的有效利用,还显著缓解了因语言偏差导致的错误答案问题,使模型更关注视觉内容,提升推理的可靠性。代码已开源,访问地址为:https://github.com/mlvlab/Flipped-VQA。