11 天前

火山:通过自反馈引导的修订缓解多模态幻觉

Seongyun Lee, Sue Hyun Park, Yongrae Jo, Minjoon Seo
火山:通过自反馈引导的修订缓解多模态幻觉
摘要

大型多模态模型普遍存在多模态幻觉问题,即模型生成的回答与给定的视觉信息不一致,出现错误。近期研究推测,多模态幻觉的一个重要原因在于视觉编码器未能准确地将语义信息锚定在图像上。为缓解这一问题,我们提出一种新颖的方法,利用自反馈作为视觉线索。基于该方法,我们构建了Volcano——一种由自反馈引导的多模态修订模型。Volcano能够根据提供的视觉信息,对初始回答生成自然语言形式的反馈,并利用该反馈对初始回答进行自我修正。实验结果表明,Volcano有效降低了多模态幻觉现象,在MMHal-Bench、POPE和GAVIE等多个基准测试中达到当前最优性能;同时,其在通用多模态能力方面也表现优异,超越了此前的先进模型,在MM-Vet和MMBench上取得了更好结果。通过定性分析,我们发现Volcano生成的反馈相较于初始回答具有更强的图像锚定性,表明该模型可通过反馈生成过程获取更丰富的视觉信息,从而实现自我纠错式的幻觉修正。我们已将模型、数据及代码公开发布于:https://github.com/kaistAI/Volcano

火山:通过自反馈引导的修订缓解多模态幻觉 | 最新论文 | HyperAI超神经