Command Palette
Search for a command to run...
Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

摘要
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的一种有前景的范式。当前方法主要依赖于PPO和GRPO等策略优化框架,这些框架遵循广义策略迭代机制,通过交替进行当前策略的价值评估与基于评估结果的策略改进来实现优化。尽管有效,但这些方法常面临训练不稳定和多样性崩溃的问题,往往需要复杂的启发式技巧和精细的超参数调优。我们观察到,在数学推理任务中,标准的RLVR可形式化为一种特定的有限时域马尔可夫决策过程,其具有确定性状态转移、树状结构动态以及二元终端奖励。尽管问题规模较大,但其内在结构比为通用控制任务设计的主流强化学习算法(如PPO)所适用的设定更为简单,这表明现有方法中的一些复杂技术或许可以简化甚至省略。基于这一洞察,我们证明了一个出人意料的结果:仅通过一个固定且均匀随机策略的Q函数,即可恢复出最优动作,从而绕过广义策略迭代循环及其相关的启发式设计。为此,我们提出了“随机策略估值用于多样化推理”(ROVER)算法,将该原理转化为一种实用且可扩展的LLM数学推理强化学习方法。ROVER是一种极简但高效的方法,其通过在均匀随机策略的Q值上应用Softmax采样来选择动作。该方法在训练过程中始终保持推理路径的多样性,支持对多种有效解题路径的持续探索。在多个基础模型及标准数学推理基准上,ROVER在性能质量(pass@1提升+8.2,pass@256提升+16.8)和推理多样性(提升+17.6%)方面均显著优于现有复杂方法,且其自身结构相比当前强大的复杂方法实现了根本性的简化。