
摘要
在OpenAI提出“通过图像进行思考”(thinking with images)概念之后,近期研究致力于激发视觉信息在推理过程中的作用,以提升模型在感知与推理任务中的表现。然而,据我们所知,目前尚无开源工作能够提供与专有模型(如O3)相媲美的丰富功能集,这些功能不仅支持多样化的图像操作,还能通过代码同时增强逻辑推理能力。本文在此方向上做出初步探索,提出Thyme(Think Beyond Images)——一种新型范式,使多模态大语言模型(MLLMs)能够超越现有的“通过图像进行思考”方法,通过可执行代码自主生成并执行多种图像处理与计算操作。该方法不仅支持丰富且实时的图像变换(如裁剪、旋转、对比度增强等),还可进行数学计算,同时在决定何时以及如何应用这些操作方面保持高度自主性。我们通过两阶段训练策略激活这一能力:首先在精心构建的50万样本数据集上进行监督微调(SFT),以学习代码生成;随后进入强化学习(RL)阶段,优化决策能力。在RL阶段,我们人工收集并设计了高分辨率的问答对,以提升学习难度,并提出GRPO-ATS(基于自适应温度采样的组相对策略优化)算法,该算法对文本生成与代码生成分别采用不同的温度参数,以平衡推理过程中的探索性与代码执行的精确性。我们进行了广泛的实验分析与消融研究。在近20个基准测试上的综合评估表明,Thyme在各类任务中均取得了显著且一致的性能提升,尤其在高分辨率感知与复杂推理任务中表现突出。