SynthRL:通过可验证的数据合成扩展视觉推理能力
Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
发布日期: 6/4/2025

摘要
通过强化学习与可验证奖励(RLVR)训练的视觉-语言模型(VLMs)在有效扩展测试时计算方面已经取得了显著进展。在这项工作中,我们研究了合成的RL数据如何进一步改进RLVR。为此,我们提出了SynthRL——一种用于推理导向的RL训练中自动数据扩展的可扩展且有保证的管道。SynthRL包括三个关键阶段:(1) 选择具有适当分布的种子问题,(2) 在保留原始答案的同时将其增强为更具挑战性的变体,以及 (3) 一个有保证的验证阶段,确保接近完美的正确性和难度提升。我们的实证实验展示了SynthRL的可扩展性和有效性。当应用于MMK12数据集时,SynthRL从大约8K个种子样本中合成了超过3.3K个额外的可验证且具挑战性的问题。使用我们合成的数据训练的模型在五个域外视觉数学推理基准测试中表现出一致的性能提升,相较于仅使用种子数据训练的基础模型有了显著改进。值得注意的是,详细分析表明,在最具挑战性的评估样本上,这些性能提升更为明显,突显了SynthRL在激发更深层次和更复杂推理模式方面的有效性。