Command Palette
Search for a command to run...

摘要
使大型多模态模型(LMMs)深度融合图像交互与长时程推理能力,仍是该领域长期面临的挑战。近年来,以视觉为中心的推理研究探索了一种极具前景的“以图像思考”范式,标志着模型推理方式从图像辅助推理向图像交互式思维的转变。尽管这一里程碑式进展使模型能够聚焦于图像中的细粒度区域,但其发展仍受限于有限的视觉工具空间以及任务特定的工作流设计。为弥合这一差距,我们提出 V-Thinker——一种通用型多模态推理助手,通过端到端强化学习实现交互式、以视觉为中心的思维能力。V-Thinker 包含两个核心组件:(1)数据演化飞轮(Data Evolution Flywheel),能够自动合成、演化并验证跨三个维度(多样性、质量与难度)的交互式推理数据集;(2)视觉渐进式训练课程(Visual Progressive Training Curriculum),首先通过点级监督对齐感知能力,随后借助两阶段强化学习框架逐步整合交互式推理能力。此外,我们构建了 VTBench——一个由专家验证的基准测试集,专门针对以视觉为中心的交互式推理任务。大量实验表明,V-Thinker 在通用推理与交互式推理场景中均显著优于现有的强基线 LMM 模型,为推动图像交互式推理应用的发展提供了重要启示。