Jigsaw-R1:基于规则的视觉强化学习研究——以拼图游戏为例
Wang, Zifu ; Zhu, Junyi ; Tang, Bo ; Li, Zhiyu ; Xiong, Feiyu ; Yu, Jiaqian ; Blaschko, Matthew B.
发布日期: 6/3/2025

摘要
将基于规则的强化学习(RL)应用于多模态大语言模型(MLLMs)带来了独特的挑战,并可能导致与纯文本领域的发现有所偏差,特别是在感知密集型任务中。本文通过以拼图游戏为结构化的实验框架,对基于规则的视觉RL进行了全面研究,揭示了若干关键发现。首先,我们发现MLLMs在简单的拼图游戏中初始表现接近随机猜测,但通过微调可以达到近乎完美的准确率,并且能够泛化到复杂的、未见过的配置。其次,拼图游戏训练可以促使模型泛化到其他视觉任务,其有效性取决于特定的任务配置。第三,MLLMs可以在有或没有显式推理的情况下进行学习和泛化,尽管开源模型通常倾向于直接回答问题。因此,即使经过逐步推理训练,它们也可能忽略思考过程而直接得出最终答案。第四,我们观察到复杂的推理模式似乎是预先存在的而非新出现的,其频率随着训练和任务难度的增加而提高。最后,我们的结果表明RL比监督微调(SFT)表现出更有效的泛化能力,并且初始的SFT冷启动阶段可能会阻碍后续的RL优化。虽然这些观察结果是基于拼图游戏得出的,在其他视觉任务中可能有所不同,但本研究为集体理解基于规则的视觉RL及其在多模态学习中的潜力贡献了一块宝贵的拼图。代码可在以下地址获取:\href{https://github.com/zifuwanggg/Jigsaw-R1}{https://github.com/zifuwanggg/Jigsaw-R1}。