在非策略指导下学习推理
Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
发布日期: 4/24/2025

摘要
近期在大型推理模型(LRMs)方面的进展表明,通过强化学习(RL)和简单的基于规则的奖励机制,可以产生复杂的多步骤推理和自我反思等行为。然而,现有的零强化学习(zero-RL)方法本质上是“在线策略”(on-policy),这限制了学习过程仅限于模型自身的输出,并且无法获得超出其初始能力的推理能力。我们引入了LUFFY框架(在离线策略指导下学习推理),该框架通过结合离线策略的推理轨迹来增强零强化学习。LUFFY在训练过程中通过将离线策略演示与在线策略滚动相结合,动态平衡模仿与探索。值得注意的是,我们提出了一种通过正则化重要性采样进行策略塑造的方法,以避免混合策略训练中的浅层次和僵化的模仿。LUFFY在六个数学基准测试中平均获得了超过7.0的提升,并且在分布外任务上获得了超过6.2分的优势。它还显著超越了基于模仿的监督微调(SFT),特别是在泛化能力方面。分析表明,LUFFY不仅能够有效模仿,还能探索超出演示范围的内容,为使用离线策略指导训练具有泛化能力的推理模型提供了一条可扩展路径。