Command Palette
Search for a command to run...
Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

摘要
近年来,大型多模态模型通过结合基于图像的工具与强化学习,已在解决视觉问题方面取得显著进展。然而,现有的开源方法往往表现出单调的推理模式,且交互轮次有限,难以应对需要试错探索的复杂任务。为此,本文通过扩展基于工具的交互能力,提出 Mini-o3 系统,该系统能够执行深度的、多轮次的推理过程(涵盖数十步),并在具有挑战性的视觉搜索任务上达到当前最优性能。我们复现 OpenAI o3 风格行为的方案包含三个核心组件:首先,我们构建了视觉探针数据集(Visual Probe Dataset),该数据集包含数千个专为探索性推理设计的高难度视觉搜索问题;其次,我们开发了一种迭代式数据收集管道,用于获取具有多样化推理模式的冷启动轨迹,包括深度优先搜索、试错策略以及目标维持等行为;第三,我们提出一种“超轮次掩码”(over-turn masking)策略,在强化学习过程中避免对达到最大交互轮次的响应进行惩罚,从而在训练效率与推理时的可扩展性之间取得平衡。尽管训练阶段设定的交互轮次上限仅为六轮,我们的模型在推理阶段仍能自然扩展至数十轮,且随着轮次增加,准确率持续提升。大量实验表明,Mini-o3 能够生成丰富多样的推理模式与深层思维路径,有效解决复杂的视觉搜索问题。