2 天前

Thyme:超越图像的思考

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
Thyme:超越图像的思考
摘要

在OpenAI提出“通过图像进行思考”(thinking with images)概念之后,近期研究致力于激发视觉信息在推理过程中的作用,以提升模型在感知与推理任务中的表现。然而,据我们所知,目前尚无开源工作能够提供与专有模型(如O3)相媲美的丰富功能集,这些功能不仅支持多样化的图像操作,还能通过代码同时增强逻辑推理能力。本文在此方向上做出初步探索,提出Thyme(Think Beyond Images)——一种新型范式,使多模态大语言模型(MLLMs)能够超越现有的“通过图像进行思考”方法,通过可执行代码自主生成并执行多种图像处理与计算操作。该方法不仅支持丰富且实时的图像变换(如裁剪、旋转、对比度增强等),还可进行数学计算,同时在决定何时以及如何应用这些操作方面保持高度自主性。我们通过两阶段训练策略激活这一能力:首先在精心构建的50万样本数据集上进行监督微调(SFT),以学习代码生成;随后进入强化学习(RL)阶段,优化决策能力。在RL阶段,我们人工收集并设计了高分辨率的问答对,以提升学习难度,并提出GRPO-ATS(基于自适应温度采样的组相对策略优化)算法,该算法对文本生成与代码生成分别采用不同的温度参数,以平衡推理过程中的探索性与代码执行的精确性。我们进行了广泛的实验分析与消融研究。在近20个基准测试上的综合评估表明,Thyme在各类任务中均取得了显著且一致的性能提升,尤其在高分辨率感知与复杂推理任务中表现突出。

Thyme:超越图像的思考 | 最新论文 | HyperAI超神经