
摘要
奖励模型在对齐视觉-语言系统与人类偏好方面至关重要,但现有方法普遍存在幻觉、视觉定位能力薄弱以及无法调用工具进行验证等问题,限制了其在复杂多模态推理任务中的可靠性。为此,我们提出ARM-Thinker,一种具备自主能力的多模态奖励模型,能够主动调用外部工具(如图像裁剪、文档页面检索)以基于可验证的证据进行判断,取代传统静态且非交互式的奖励评分机制。该设计使模型能够验证细粒度的视觉细节、跨多页文档进行证据交叉比对,并对推理过程进行有效性验证,这些能力在现有奖励模型中尚属缺失。我们采用多阶段强化学习对ARM-Thinker进行训练,联合优化工具调用决策与判断准确性。为评估自主型奖励建模能力,我们构建了ARMBench-VL基准测试集,包含三个子任务:细粒度视觉定位(图像级工具使用)、多页文档理解(检索类工具使用)以及指令遵循能力评估(文本级验证)。实验结果表明,ARM-Thinker在奖励建模基准上平均提升16.2%,在工具使用任务上提升9.6%,并在多模态数学与逻辑推理基准上显著优于现有基线方法。本研究结果表明,引入自主能力可显著提升奖励模型的准确性与可解释性,为构建更可靠、可验证的多模态智能系统提供了新路径。