1 天前
超越Pass@1:基于变分问题生成的自对弈持续提升RLVR
Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

摘要
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)近年来已成为大语言模型(Large Language Models, LLMs)后训练阶段的关键范式,尤其适用于复杂推理任务。然而,传统的RLVR训练方法虽能提升Pass@1性能,却以降低策略熵为代价,导致生成多样性下降,从而限制了Pass@k性能的提升——而Pass@k通常代表了LLM推理能力的上限。本文从训练过程中的策略生成多样性问题出发,进行了系统性分析,发现通过增强并动态更新训练问题,有助于缓解训练过程中的熵崩溃现象。基于这一发现,我们提出一种面向RLVR训练的在线自对弈变分问题生成(Self-play with Variational problem Synthesis, SvS)策略:该策略利用策略生成的正确解来合成变分形式的问题,同时确保其参考答案与原始问题保持一致。这一自增强机制能够在训练过程中有效维持策略熵,显著优于标准RLVR方法,在Pass@k性能上实现显著提升。在竞赛级AIME24与AIME25基准测试中,SvS方法分别实现了18.3%和22.8%的绝对性能增益,且优势可长期维持。在涵盖3B至32B不同规模模型的12个推理基准上的实验结果一致表明,SvS策略具有良好的泛化能力与鲁棒性。