Command Palette

Search for a command to run...

1 个月前

分位数优势估计用于熵安全推理

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

分位数优势估计用于熵安全推理

摘要

基于可验证奖励的强化学习(RLVR)能够增强大语言模型(LLM)的推理能力,但其训练过程常在“熵坍缩”与“熵爆炸”之间震荡。我们发现,这两种风险均源于无价值强化学习(如GRPO和DAPO)中所采用的均值基线,该基线在奖励异常值存在时会对负优势样本施加不当惩罚。为此,我们提出分位数优势估计(Quantile Advantage Estimation, QAE),用一种分组式的K-分位数基线替代均值基线。QAE引入了一种基于响应级别的双模式门控机制:在困难样本(p ≤ 1 − K)上,强化罕见的成功;在简单样本(p > 1 − K)上,聚焦于尚未解决的失败。在首阶Softmax更新框架下,我们证明了“双侧熵安全性”,即对单步熵变化给出了上下界,有效抑制熵爆炸并防止熵坍缩。实验结果表明,这一最小改动显著提升了熵的稳定性,实现了更稀疏的信用分配(在合理调参K下,约80%的响应获得零优势),并在AIME 2024/2025与AMC 2023基准上,持续提升了Qwen3-8B/14B-Base模型的pass@1性能。这些结果表明,基线设计——而非逐标记的启发式策略——才是实现RLVR可扩展性的核心机制。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供