Command Palette
Search for a command to run...
Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

摘要
基于可验证奖励的强化学习(RLVR)能够增强大语言模型(LLM)的推理能力,但其训练过程常在“熵坍缩”与“熵爆炸”之间震荡。我们发现,这两种风险均源于无价值强化学习(如GRPO和DAPO)中所采用的均值基线,该基线在奖励异常值存在时会对负优势样本施加不当惩罚。为此,我们提出分位数优势估计(Quantile Advantage Estimation, QAE),用一种分组式的K-分位数基线替代均值基线。QAE引入了一种基于响应级别的双模式门控机制:在困难样本(p ≤ 1 − K)上,强化罕见的成功;在简单样本(p > 1 − K)上,聚焦于尚未解决的失败。在首阶Softmax更新框架下,我们证明了“双侧熵安全性”,即对单步熵变化给出了上下界,有效抑制熵爆炸并防止熵坍缩。实验结果表明,这一最小改动显著提升了熵的稳定性,实现了更稀疏的信用分配(在合理调参K下,约80%的响应获得零优势),并在AIME 2024/2025与AMC 2023基准上,持续提升了Qwen3-8B/14B-Base模型的pass@1性能。这些结果表明,基线设计——而非逐标记的启发式策略——才是实现RLVR可扩展性的核心机制。