通过预算相对策略优化实现 anytime 推理的优化
Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
发布日期: 5/21/2025

摘要
扩展推理时的计算能力对于提高大型语言模型(LLMs)的推理能力至关重要。现有的方法通常采用强化学习(RL)来最大化在推理轨迹结束时获得的可验证奖励。然而,这些方法仅在大量且固定的令牌预算下优化最终性能,这限制了训练和部署过程中的效率。在本研究中,我们提出了一种新颖的框架——AnytimeReasoner,旨在优化任意时刻的推理性能,以提高令牌效率并增强在不同令牌预算约束下的推理灵活性。为了实现这一目标,我们将完整的思考过程截断以适应从先验分布中采样的令牌预算,迫使模型为每个截断的思考过程总结出最优答案以供验证。这将可验证的密集奖励引入到推理过程中,有助于在强化学习优化中更有效地分配信用。随后,我们以解耦的方式优化思考策略和总结策略,以最大化累积奖励。此外,我们引入了一种新的方差减少技术——Budget Relative Policy Optimization(BRPO),以增强在强化思考策略时学习过程的稳健性和效率。实证结果表明,在数学推理任务中,我们的方法在各种先验分布下的一系列思考预算条件下始终优于GRPO,提高了训练和令牌效率。