Command Palette

Search for a command to run...

Back to Headlines

BroRL新突破:扩展回放技术破解强化学习训练瓶颈

11 天前

在强化学习训练大语言模型(LLM)过程中,如何突破性能瓶颈一直是个关键挑战。此前NVIDIA Research提出的“延长强化学习”(ProRL)方法通过增加训练步数,有效拓展了模型的推理能力,但训练数千步后性能趋于停滞甚至下降,陷入“天花板”。这一现象是否意味着强化学习本身存在根本性限制?还是源于现有扩展方式的局限? 今天,NVIDIA研究团队提出全新范式——广域强化学习(Broadened Reinforcement Learning, BroRL),首次将“ rollout 扩展”作为核心scaling维度,突破传统瓶颈。与以往只增加训练步数不同,BroRL大幅提高每个提示(prompt)的探索性 rollout 数量,从原来的16次提升至512次,相当于让模型在每次更新中“派出一支大军”探索更多可能路径。 理论分析表明,强化学习过程受两类力量影响:已采样的路径(提供可靠反馈)与未采样的空间(产生噪声干扰)。当采样数量少时,未探索区域带来的噪声如同引力,拖拽模型无法前进;而当采样规模极大(如N=512),随机噪声趋于平均,正向信号显著增强,模型得以持续向上突破,实现稳定且连续的学习。 实验验证了这一突破:在已停滞的ProRLv2模型基础上,采用BroRL(N=512)训练仅需约107小时,数学、代码与推理任务得分分别达到63.66、56.64和63.40,显著超越原方法在350小时后的表现。更重要的是,BroRL不仅性能更强,还更高效——在相同硬件(64块H100 GPU)下,训练时间缩短近三分之一,且单位token产出更高,推理更紧凑、冗余更少。 BroRL展现出卓越的计算效率:在数学与代码任务中,以更少输出token实现更高得分,证明其推理质量与响应长度解耦,摆脱了传统方法中“越练越啰嗦”的弊端。 这项成果表明,此前强化学习的性能瓶颈并非本质限制,而是探索不足所致。BroRL为提升模型推理能力提供了全新路径:当模型“撞墙”时,不应一味延长训练,而应拓宽探索范围。 目前,基于BroRL训练的15亿参数模型已开源,可通过Hugging Face获取,为研究者和开发者提供前沿工具,推动大模型推理能力迈向新高度。

Related Links

BroRL新突破:扩展回放技术破解强化学习训练瓶颈 | 最新资讯 | HyperAI超神经