Command Palette
Search for a command to run...
Ziniu Li Congliang Chen Tianyun Yang Tian Ding Ruoyu Sun Ge Zhang Wenhao Huang Zhi-Quan Luo

摘要
大型语言模型(LLMs)可通过强化学习实现自我优化,即通过生成轨迹来探索并发现更优解。然而,这一探索过程计算成本高昂,导致现有方法通常为每个任务分配有限的探索预算。这种均等化的预算分配策略会产生若干问题:简单任务始终成功,而困难任务则持续失败,二者在训练更新过程中均产生零梯度,这对广泛使用的组相对策略优化(Group Relative Policy Optimization, GRPO)构成了严重挑战。本文从探索预算分配的角度出发,提出一种新的解决方案。我们将每个任务的探索视为一个具有“价值”与“成本”的“项目”,并将其与经典的背包问题建立联系。基于这一建模方式,我们推导出一种最优的资源分配规则,能够根据模型当前的学习状态自适应地分配计算资源。将该方法应用于GRPO时,训练过程中非零策略梯度的有效比例提升了20%至40%。该方法如同一种“免费午餐”——可将已达到学习饱和的任务的探索预算重新分配给最具提升潜力的任务。这使得对特别困难的问题能够启用显著更大的探索预算(例如高达93次rollout),而这种规模在传统均等分配策略下是计算上不可行的。这些改进在数学推理基准测试中带来了实质性的性能提升,平均提升2至4个百分点,部分任务甚至实现高达9个百分点的峰值增益。值得注意的是,若采用传统的同质化分配策略达到同等性能水平,所需计算资源约为当前方法的两倍。