通过鲁棒指令微调缓解大模型中的幻觉问题

尽管在多模态任务中取得了令人瞩目的进展,当前的大规模多模态模型(Large Multi-modal Models, LMMs)仍容易产生与关联图像及人类指令不一致的幻觉性描述。本文针对这一问题,提出首个大规模且多样化的视觉指令微调数据集——大规模鲁棒视觉指令数据集(Large-scale Robust Visual Instruction, LRV-Instruction)。该数据集包含由GPT-4生成的40万条视觉指令,覆盖16项视觉与语言交叉任务,所有指令和答案均为开放式格式。与以往研究主要关注正向指令样本不同,我们设计的LRV-Instruction特别引入了正负双向指令,以实现更鲁棒的视觉指令微调。其中,负向指令在三个语义层次上进行设计:(i)不存在对象的操作;(ii)存在对象的操作;(iii)知识层面的操控。为高效评估LMMs产生的幻觉现象,本文进一步提出GPT-4辅助视觉指令评估(GPT4-Assisted Visual Instruction Evaluation, GAVIE)方法。该方法具有良好的稳定性,可模拟人类专家进行评估,无需依赖人工标注的黄金标准答案,且能适应多种指令格式。我们通过一系列全面实验深入探究了LMMs在面对负向指令时的幻觉行为。实验结果表明,现有LMMs在接收到我们的负向指令后表现出显著的幻觉现象,尤其是在“存在对象操作”与“知识操控”类指令上尤为突出。此外,我们在LRV-Instruction上对MiniGPT4和mPLUG-Owl进行微调,成功有效缓解了幻觉问题,并在多个公开数据集上的性能超越当前最先进的方法。同时,我们发现训练数据中正负样本保持均衡比例,有助于构建更具鲁棒性的模型。相关代码与数据已开源,访问地址为:https://github.com/FuxiaoLiu/LRV-Instruction。