HyperAIHyperAI

Command Palette

Search for a command to run...

DelTA:基于可验证奖励强化学习的判别性 Token 信用分配

Kaiyi Zhang Wei Wu Yankai Lin

摘要

基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的一项核心技术。尽管其效果显著,但响应级奖励如何转化为词元级概率变化这一问题仍缺乏深入理解。我们引入了 RLVR 更新的判别器视角,表明策略梯度更新方向隐式地充当了词元梯度向量上的线性判别器,从而决定了在学习过程中哪些词元概率会增加或减少。在标准的序列级 RLVR 中,该判别器由正负侧质心构成,这些质心是通过对词元梯度向量进行优势加权平均形成的。然而,此类质心构建过程可能受到共享的高频模式(如格式词元)的主导,从而稀释了那些能更好区分高奖励响应与低奖励响应的稀疏且具有判别性的方向。为了解决这一局限性,我们提出了 DelTA,这是一种判别性词元信用分配方法,该方法估计词元系数以放大特定侧别的词元梯度方向,并降低共享或弱判别性方向的权重。这些系数对自归一化的 RLVR 代理目标进行重加权,使得有效的侧别质心更具对比性,从而重塑 RLVR 的更新方向。在七个数学基准测试中,DelTA 在 Qwen3-8B-Base 和 Qwen3-14B-Base 上分别比最强的同规模基线方法高出 3.26 和 2.62 的平均分数。在代码生成、不同骨干网络以及域外评估中的额外结果进一步证明了 DelTA 的泛化能力。

一句话总结

作者提出了 DelTA,一种用于可验证奖励强化学习(RLVR)的判别性 token 信用分配方法。该方法通过估计 token 系数来放大特定侧的梯度方向,同时降低共享格式模式的权重,从而重新加权自归一化的 RLVR 代理目标,生成更具对比性的侧向中心点,并重塑 RLVR 的更新方向。

核心贡献

  • 本研究建立了可验证奖励序列级强化学习的判别器视角,证明策略梯度更新在隐式意义上充当了基于 token 梯度向量的线性判别器,用于确定局部概率调整。
  • 提出的 DelTA 方法计算判别性 token 系数,以放大特定侧的梯度方向,同时降低共享高频模式的权重,从而在自归一化的可验证奖励强化学习代理目标内重塑更新方向。
  • 在七个数学推理基准和代码生成任务上的实证评估表明,该方法相较于强基线模型实现了持续的性能提升,在多种架构和域外设置下,Qwen3-8B-Base 的平均提升为 3.26 分,Qwen3-14B-Base 的平均提升为 2.62 分。

引言

可验证奖励强化学习已成为提升大语言模型在数学与代码生成任务中推理能力的基础技术。通过优化响应级正确性而无需密集的过程标注,该方法规避了高昂的人工标注成本,但引入了关键的粒度不匹配问题,即单一标量奖励必须分配给各个 token 更新。标准方法通常通过平均正负响应的 token 梯度来构建参考中心点,但这些中心点常被格式 token 等共享高频模式所主导。这种稀释效应会掩盖真正区分正确推理与错误输出的稀疏且高判别性的方向,从而削弱训练信号。为弥补这一不足,作者提出了 RLVR 更新的判别器视角,揭示出策略梯度在隐式意义上充当了基于 token 梯度的线性分类器。基于此洞察,作者提出了 DelTA 方法,该方法通过估计判别性 token 系数来放大特定侧的梯度方向,同时抑制共享或微弱信号。这些系数对 RLVR 训练目标进行重新加权,生成更具对比性的更新方向,并在数学推理、代码生成及域外基准测试中持续提升模型性能。

方法

作者以 DAPO 框架为例,通过判别性视角分析与改进基于奖励的序列级值优化(RLVR)。核心方法 DelTA 通过重新加权 RLVR 目标中的 token 梯度贡献,增强所诱导策略更新方向的判别能力。这通过重塑 token 梯度空间中定义隐式线性判别器的有效侧向中心点来实现。

整体框架首先针对提示 qqq 生成一组采样响应 {oi}i=1G\{o_i\}_{i=1}^G{oi}i=1G,每个响应获得一个序列级奖励 RiR_iRi。这些奖励经过归一化处理以计算组归一化优势 A^i\hat{A}_iA^i,该优势在同一响应的所有 token 间共享。Token 级重要性比率 ri,t(θ)r_{i,t}(\theta)ri,t(θ) 定义为策略对 token oi,to_{i,t}oi,t 的当前对数概率与旧对数概率之比,作为策略更新的主要对象。如公式 (1) 所示,标准 DAPO 代理目标优化该比率与优势乘积的截断版本。由此目标导出的局部策略梯度更新是对 token 梯度向量 vi,tv_{i,t}vi,t 的优势加权聚合。该聚合根据优势符号进行划分,形成正侧(A^i>0\hat{A}_i > 0A^i>0)与负侧(A^i<0\hat{A}_i < 0A^i<0)。

如图所示,局部更新方向 ΔθRLVR\Delta\theta_{RLVR}ΔθRLVR 与正侧和负侧的总质量及归一化聚合方向之差成正比。侧向中心点 μˉ+\bar{\mu}_+μˉ+μˉ\bar{\mu}_-μˉ 是两侧 token 梯度向量的优势加权平均值,作为判别决策的参考方向。作者指出,这些中心点作为加权最小二乘摘要,未必能最优地区分两个优势侧,因为常见的 token 模式可能会主导并稀释更具判别性的方向。

DelTA 通过引入判别信号引导的 token 重新加权机制来解决这一问题。该方法首先从原始优势加权中心点初始化正负中心点(μ+(0)\mu_+^{(0)}μ+(0), μ(0)\mu_-^{(0)}μ(0)),随后进行 KKK 次细化迭代。在每次迭代中,DelTA 根据每个 token 梯度向量与其自身侧中心点及对立侧中心点的接近程度,估计一个软判别分数 αi,t(k)\alpha_{i,t}^{(k)}αi,t(k)。对于正优势 token,当 token 梯度向量距离正中心点比负中心点更近时,分数达到最大;负优势 token 反之。该过程被形式化为熵正则化分配问题,其闭式解为距离边界的 sigmoid 函数,如公式 (6) 所示。

获得这些判别分数后,DelTA 通过计算每侧 token 梯度向量的分数加权平均值来更新中心点,如公式 (7) 所示。该细化过程放大了更具自身优势侧特征的 token 梯度向量的影响。完成最终细化后,原始分数被映射为有界系数 λi,t\lambda_{i,t}λi,t,随后用于在 DAPO 代理目标的自归一化版本中重新加权 token 贡献,如公式 (8) 所示。此重新加权机制重塑了有效侧向中心点,进而修改了诱导判别器与局部 RLVR 更新方向,使其更聚焦于判别性 token。整个系数估计过程采用停止梯度操作,即不向其反向传播梯度,且每轮 rollout 批次仅执行一次。

实验

评估在 Qwen3 和 Olmo3 骨干网络上训练 DelTA,涵盖数学推理、代码生成与域外基准测试,并与最先进的强化学习基线模型进行对比,同时隔离策略更新效应。实验验证了 DelTA 通过维持稳定且自信的长推理轨迹,始终优于所有基线模型,这归功于其判别性 token 级信用分配机制,该机制提升了对比性梯度方向的权重,而非依赖共享模式。消融研究证实,所有设计组件(包括至关重要的对立侧比较与单步中心点细化)对实现这些性能提升均不可或缺,而超参数敏感性测试则表明该方法在不同配置下均表现出稳健的性能。最终,该方法在各类架构与任务领域中有效泛化,且未引入显著的计算开销,为序列级强化学习建立了可靠的框架。

作者使用两种模型骨干在多个数学推理基准上将 DelTA 与 DAPO 及仅包含单侧比较的变体进行对比。结果表明,DelTA 在所有基准上均持续优于两种基线模型,并取得最高平均分。仅包含单侧比较的变体表现不及两者,表明对立侧比较对于有效的 token 级信用分配至关重要。DelTA 在所有数学推理基准上持续优于 DAPO 与单侧变体。单侧变体表现逊于 DelTA 与 DAPO,突显了对立侧比较的重要性。DelTA 在两种模型规模的所有评估基准上均取得最高平均分。

作者使用 Qwen3-8B-Base 与 Qwen3-14B-Base 模型在数学推理基准上开展实验,将提出的 DelTA 方法与多种 RL 基线进行对比。结果表明,DelTA 在所有基准和两种模型规模上均持续优于所有同规模基线模型,平均分数得到提升。该方法在不同模型架构与任务(包括代码生成与域外评估)中展现出稳健性,同时保持适度的计算开销。训练动态显示,相较于基线方法,DelTA 能够维持更高的奖励与更稳定的长推理行为。DelTA 在所有数学推理基准上持续优于两种模型规模的所有同规模 RL 基线。在训练过程中,DelTA 维持着比基线方法更高的奖励与更稳定的长推理行为。DelTA 在域外评估与不同模型架构上均展现出对基线的稳定提升,表明其具有广泛的应用潜力。

作者开展消融研究以评估 DelTA 中各个设计组件的贡献。结果表明,每个组件均对整体性能发挥作用,其中移除细化模块会导致平均分出现最显著的下降。其他组件(包括自适应温度缩放、熵正则化与系数归一化)也对方法的有效性有所贡献。研究结果表明,DelTA 的完整设计组合是实现最优性能所必需的。DelTA 的每个组件均对性能有所贡献,其中细化模块的影响最大。移除自适应温度缩放、熵正则化或系数归一化均会降低平均分。消融研究证实,完整的 DelTA 设计对获得最佳结果至关重要。

表格展示了 DelTA 的消融研究结果,揭示了不同超参数设置如何影响多个数学推理基准上的性能。结果表明,DelTA 的基础配置在所有基准上取得最高平均分,而系数范围与细化迭代次数的变化会导致性能下降,说明所选设置提供了稳定且有效的平衡。增加细化迭代次数至一次以上会导致性能持续下降。与细化迭代次数的变化相比,系数范围的调整对性能的影响较小。

作者使用两种模型规模在数学推理基准上将 DelTA 与多种强化学习基线进行对比。结果表明,DelTA 在两种模型规模上均持续优于所有同规模基线,在每个基准上取得最高分数,并实现最佳平均性能。该优势在多种设置下均有所体现,包括不同的模型架构与域外任务,表明其在主评估集之外具备稳健性与泛化能力。相较于同规模基线,DelTA 在所有基准上持续取得最高分数与最佳平均性能。在 Qwen3-8B-Base 与 Qwen3-14B-Base 上,DelTA 均优于所有基线,且在每个独立基准上均有显著提升。DelTA 的改进在不同模型架构中表现稳健,并延伸至域外推理任务。

在基于 Qwen3 模型变体的数学推理基准上的评估表明,DelTA 在性能与训练稳定性方面均持续超越强化学习基线与消融变体。实验验证了对立侧比较对于有效的 token 级信用分配至关重要,而组件消融研究证实,各项设计选择(尤其是细化模块)对获得最优结果不可或缺。超参数分析进一步表明,基础配置提供了最有效的平衡,跨任务评估则突显了该方法的稳健性及其在域外场景中的强大泛化能力。综合来看,这些发现确立了 DelTA 作为一种高度稳定且广泛适用的方法,能够可靠地提升各类模型规模下的长推理能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供