Pixel Reasoner: 通过好奇心驱动的强化学习激发像素空间推理
Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
发布日期: 5/26/2025

摘要
链式思维(Chain-of-thought reasoning)在多个领域显著提升了大语言模型(LLMs)的性能。然而,这种推理过程一直局限于文本空间,在处理对视觉信息要求较高的任务时效果有限。为了解决这一限制,我们提出了像素空间推理(reasoning in the pixel-space)的概念。在这一全新的框架下,视觉语言模型(VLMs)被赋予了一套视觉推理操作,例如“放大”(zoom-in)和“选择帧”(select-frame)。这些操作使得 VLMs 能够直接检视、分析并从视觉证据中推断,从而提高其在视觉任务中的推理准确性。 培养 VLMs 的像素空间推理能力面临诸多挑战,包括模型初始能力不均衡,以及其在训练早期对新引入的像素空间操作的采纳意愿较低。我们通过两阶段训练方法解决这些问题:第一阶段使用合成的推理轨迹进行指令微调(instruction tuning),使模型熟悉这些新颖的视觉操作;随后,在第二阶段中,我们采用基于“好奇心驱动”的奖励机制进行强化学习(RL),以在像素空间推理与文本空间推理之间实现探索的平衡。借助这些视觉操作,VLMs 能够主动从复杂的视觉输入中(如信息密集的图像或视频)获取所需信息。我们的方法在多个视觉推理基准测试中显著提升了模型性能。我们的 70 亿参数模型 \model,在 V* bench 上达到了 84%、在 TallyQA-Complex 上达到了 74%、在 InfographicsVQA 上达到了 84% 的准确率,创下了迄今为止开源模型的最高成绩。这些结果突显了像素空间推理的重要性以及我们框架的有效性。