Command Palette
Search for a command to run...

摘要
我们提出了QeRL——一种面向大语言模型(LLMs)的量化增强型强化学习框架。尽管强化学习(RL)对于提升大语言模型的推理能力至关重要,但其训练过程资源消耗巨大,需要大量的GPU显存以及较长的采样(rollout)时间。QeRL通过结合NVFP4量化技术与低秩适配(LoRA),在加速RL采样阶段的同时显著降低了内存开销。除了提升效率外,我们的研究发现,量化噪声能够增加策略的熵(policy entropy),从而增强探索能力,并在强化学习过程中帮助发现更优策略。为进一步优化探索机制,QeRL引入了一种自适应量化噪声(Adaptive Quantization Noise, AQN)机制,可在训练过程中动态调整噪声水平。实验结果表明,QeRL在采样阶段实现了超过1.5倍的加速。更重要的是,QeRL是首个能够在单张H100 80GB GPU上完成320亿参数(32B)大模型强化学习训练的框架,同时实现了整体训练速度的提升。相较于16位LoRA和QLoRA,QeRL不仅具备更快的奖励增长速度,还取得了更高的最终准确率;在70亿参数(7B)模型上,其在数学基准测试(如GSM8K,准确率90.8%;MATH 500,准确率77.4%)上的表现与全参数微调相当。这些成果确立了QeRL作为大语言模型强化学习训练中高效且有效的全新框架。