不要只看一次:迈向具有选择性视觉回顾的多模态交互推理
Chung, Jiwan ; Kim, Junhyeok ; Kim, Siyeol ; Lee, Jaeyoung ; Kim, Min Soo ; Yu, Youngjae
发布日期: 6/2/2025

摘要
我们介绍了v1,这是一种轻量级扩展,适用于多模态大语言模型(MLLMs),能够在推理过程中实现选择性的视觉重访。当前的多模态大语言模型通常仅一次性消费视觉输入,并完全依赖内部记忆进行推理,而v1引入了一种简单的指向和复制机制,使模型能够在整个推理过程中动态检索相关的图像区域。该机制通过最小的修改增强了现有架构,使模型能够根据其不断发展的假设情境访问视觉标记。为了训练这一能力,我们构建了v1g数据集,包含30万个多模态推理轨迹及其穿插的视觉基础注释。在三个多模态数学推理基准测试——MathVista、MathVision和MathVerse——上的实验表明,v1在性能上始终优于类似的基线模型,尤其是在需要细粒度视觉参考和多步骤推理的任务中。我们的结果表明,动态视觉访问是增强基于地面的多模态推理的一个有前景的方向。代码、模型和数据将对外发布,以支持未来的研究。