Command Palette
Search for a command to run...
Jack Hong Chenxiao Zhao ChengLin Zhu Weiheng Lu Guohai Xu Xing Yu

摘要
智能体式多模态模型不仅应能理解文本与图像,还应能主动调用外部工具,如代码执行环境和网络搜索,并将这些操作整合进推理过程。在本研究中,我们提出了 DeepEyesV2,并从数据构建、训练方法和模型评估三个角度探索如何构建智能体式多模态模型。我们发现,仅依赖直接强化学习难以有效激发稳健的工具使用行为。这一现象促使我们设计了一种两阶段训练流程:第一阶段为冷启动阶段,用于建立初步的工具使用模式;第二阶段则通过强化学习进一步优化工具调用能力。我们构建了一个多样化且具有适度挑战性的训练数据集,其中特别包含工具使用能带来显著优势的示例。此外,我们提出了 RealX-Bench,一个全面的基准测试集,用于评估真实场景下的多模态推理能力,该任务天然要求融合感知、搜索与推理等多种能力。我们在 RealX-Bench 及其他代表性基准上对 DeepEyesV2 进行了评估,结果表明其在真实世界理解、数学推理以及搜索密集型任务中均表现出色。此外,DeepEyesV2 展现出任务自适应的工具调用能力:在感知类任务中倾向于使用图像操作,在推理类任务中则更偏好数值计算。强化学习进一步支持复杂工具组合的使用,并使模型能够根据上下文环境选择性地调用工具。我们希望本研究能为社区在开发智能体式多模态模型方面提供有益的指导。