1 个月前

分位数优势估计用于熵安全推理

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

摘要

基于可验证奖励的强化学习（RLVR）能够增强大语言模型（LLM）的推理能力，但其训练过程常在“熵坍缩”与“熵爆炸”之间震荡。我们发现，这两种风险均源于无价值强化学习（如GRPO和DAPO）中所采用的均值基线，该基线在奖励异常值存在时会对负优势样本施加不当惩罚。为此，我们提出分位数优势估计（Quantile Advantage Estimation, QAE），用一种分组式的K-分位数基线替代均值基线。QAE引入了一种基于响应级别的双模式门控机制：在困难样本（p ≤ 1 − K）上，强化罕见的成功；在简单样本（p > 1 − K）上，聚焦于尚未解决的失败。在首阶Softmax更新框架下，我们证明了“双侧熵安全性”，即对单步熵变化给出了上下界，有效抑制熵爆炸并防止熵坍缩。实验结果表明，这一最小改动显著提升了熵的稳定性，实现了更稀疏的信用分配（在合理调参K下，约80%的响应获得零优势），并在AIME 2024/2025与AMC 2023基准上，持续提升了Qwen3-8B/14B-Base模型的pass@1性能。这些结果表明，基线设计——而非逐标记的启发式策略——才是实现RLVR可扩展性的核心机制。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

分位数优势估计用于熵安全推理

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

摘要

用 AI 构建 AI

Hyper Newsletters