2 天前

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong

摘要

基于验证器的强化学习（Reinforcement Learning with Verifiers, RLVR）是提升大语言模型（Large Language Model, LLM）推理能力的核心范式，然而现有方法普遍面临探索能力受限的问题。现有策略往往趋向于收敛于少数几种推理模式，过早终止深度探索；而传统的熵正则化仅引入局部随机性，难以激发有意义的路径级多样性，导致在基于群体的策略优化中学习信号弱且不稳定。为此，我们提出DSDR（Dual-Scale Diversity Regularization）——一种双尺度多样性正则化强化学习框架，将LLM推理中的多样性分解为全局与耦合两个层面。在全局层面，DSDR促进正确推理轨迹之间的多样性，以探索不同的解题模式；在局部层面，它在正确轨迹上施加一种与长度无关的、基于token级别的熵正则化，防止每种模式内部的熵坍缩，同时保障推理结果的正确性。两个尺度通过一种从全局到局部的分配机制实现耦合，优先对更具区分性的正确轨迹强化局部正则化。我们提供了理论支持，证明DSDR在受限正则化条件下仍能保持最优正确率，维持群体优化中富有信息量的学习信号，并推导出一种合理的全局到局部耦合规则。在多个推理基准上的实验结果表明，DSDR在准确率和pass@k指标上均实现了稳定且显著的提升，凸显了双尺度多样性在RLVR中深度探索的重要性。代码已开源，地址为：https://github.com/SUSTechBruce/DSDR。

一句话总结

万中伟、沈云及多位机构合作者提出 DSDR，一种双尺度多样性正则化方法，通过平衡局部与全局多样性增强大语言模型推理中的探索能力，在复杂推理任务中优于先前技术，且无需修改模型架构。

主要贡献

DSDR 引入了一种用于大语言模型推理的双尺度探索框架，将全局多样性（跨不同正确解路径）与局部多样性（各路径内部）分离，解决了现有 RLVR 方法中因陷入同质化推理模式而导致的性能退化问题。
该方法通过一种从全局到局部的分配机制耦合两种尺度：仅对更具区分度的正确轨迹施加长度无关、正确性受限的词元级熵正则化，在保持解质量的同时防止路径内熵崩溃。
理论分析证实 DSDR 在基于组的 RLVR 中维持最优正确性并持续提供信息丰富的学习信号，实证验证在多个推理基准上一致提升准确率与 pass@k 性能。

引言

作者利用带验证器的强化学习（RLVR）增强大语言模型推理能力，但发现现有方法探索能力差，易坍缩为少数同质化推理模式，损害 pass@k 性能与泛化能力。先前基于熵或多样性的技术要么仅注入局部随机性，要么孤立处理全局与局部多样性，无法在多尺度上维持有意义且与正确性对齐的探索。其主要贡献是 DSDR——一种双尺度框架，联合优化正确轨迹间的全局多样性与词元级局部熵正则化（仅限正确路径，并根据轨迹区分度自适应分配），从而在保持正确性的同时强化学习信号，实现更深入、更稳定的探索。

方法

作者构建了基于组相对策略优化（GRPO）的双尺度多样性正则化框架 DSDR，以增强推理任务中可验证奖励强化学习（RLVR）的探索能力并防止坍缩。核心创新在于将全局轨迹级多样性与局部词元级熵正则化耦合，确保探索既在不同解模式间广泛分布，又在高价值路径内精细调控。

整体训练协议遵循组采样方案：针对每个问题输入，策略模型生成一组候选轨迹，由验证器评估后输出二元奖励。DSDR 在此过程中引入两个互补的多样性信号。在全局尺度，通过结合语义差异性（基于冻结文本嵌入）与公式级唯一性（捕捉不同的符号操作）计算每个轨迹的有界多样性得分。该全局多样性得分仅用于塑造正确轨迹的奖励，防止奖励欺骗并保持正确性目标，同时在有效解间引入可控分散。此机制确保即使所有采样轨迹均正确，组相对优势仍保持非退化，维持有意义的学习信号。

请参阅框架图，图中展示如何从多个轨迹计算全局多样性得分，并输入至全局到局部耦合模块。该模块通过基于正确轨迹的多样性加权 softmax 分配局部正则化强度。softmax 中的温度参数控制探索集中度：较高值将正则化聚焦于最具全局区分度的正确解，较低值则更均匀分布。此耦合确保局部熵扩展应用于最有益之处——即组内已稀有的轨迹——从而填充正确解流形中未充分探索的区域。

如下图所示，局部正则化组件在词元级别运作，鼓励在正向轨迹上进行受控熵扩展。它采用时间平均条件熵目标，通过重要性采样重写，以保持可微分性并从用于策略更新的相同轨迹中计算。此公式避免长度偏差，且仅在正确路径上促进熵，确保探索优化而非破坏有效推理。最终 DSDR 目标函数结合 GRPO 策略损失（使用增强奖励计算）与局部熵正则化项，权重由全局多样性导出的耦合系数决定。

架构的双尺度设计进一步通过解空间对比图可视化：基线探索倾向于坍缩为单一正确模式，而 DSDR 的耦合正则化在多个不同正确轨迹周围扩展概率质量，如右侧图中绿色箭头和更宽的盆地所示。这种结构化探索使模型能在不牺牲正确性的前提下发现多样推理路径，解决了标准 RLVR 方法的关键局限。

实验

DSDR 在多个数学推理基准和不同模型规模上持续优于基线方法（Backbone、GRPO、DAPO），在 Pass@1 和 Avg@16 上均显示可扩展提升，表明解稳定性与质量改善。
该方法在 AIME2024/2025 和奥赛等具有多条有效推理路径的挑战性基准上表现优异，通过保持信息丰富的学习信号并缓解奖励方差坍缩。
DSDR 扩展正确推理轨迹的多样性而非强化单一解，从而在不同 k 值下实现更强更可靠的 Pass@k 性能，尤其在正确解稀疏的基准上。
消融研究证实全局多样性（GD）与全局到局部耦合（GC）均不可或缺：移除任一均导致性能下降，尤其在复杂基准上，显示二者在促进定向探索中的互补作用。
训练动态显示，DSDR 通过结合仅限正确解的全局多样性与局部正则化维持平衡探索——更高熵而不失稳定，防止模式坍缩同时保持语义与公式级多样性。
多样性分析表明 DSDR 生成更广泛的推理策略而不牺牲正确性，经更高多样性得分与 pass@32 性能验证优于 DAPO。
超参数敏感性测试表明 DSDR 在适度正则化范围内稳定，λℓ = 0.001 和 λd = 0.001 在多个基准上取得最优且一致性能。
案例研究展示 DSDR 能为每个问题生成多个不同正确解，而 DAPO 倾向于有限或错误的推理模式，证实 DSDR 在受控且保持正确性的探索中的有效性。

作者使用 DSDR 增强大语言模型的数学推理能力，促进正确解轨迹间的多样性。结果表明，在多个基准和模型规模上持续优于基线方法，且随模型容量增大增益更显著。消融研究确认全局多样性与全局到局部耦合对维持稳定探索和防止奖励坍缩均至关重要。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 天前

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong

摘要

一句话总结

主要贡献

DSDR 引入了一种用于大语言模型推理的双尺度探索框架，将全局多样性（跨不同正确解路径）与局部多样性（各路径内部）分离，解决了现有 RLVR 方法中因陷入同质化推理模式而导致的性能退化问题。
该方法通过一种从全局到局部的分配机制耦合两种尺度：仅对更具区分度的正确轨迹施加长度无关、正确性受限的词元级熵正则化，在保持解质量的同时防止路径内熵崩溃。
理论分析证实 DSDR 在基于组的 RLVR 中维持最优正确性并持续提供信息丰富的学习信号，实证验证在多个推理基准上一致提升准确率与 pass@k 性能。

引言

方法

实验

DSDR 在多个数学推理基准和不同模型规模上持续优于基线方法（Backbone、GRPO、DAPO），在 Pass@1 和 Avg@16 上均显示可扩展提升，表明解稳定性与质量改善。
该方法在 AIME2024/2025 和奥赛等具有多条有效推理路径的挑战性基准上表现优异，通过保持信息丰富的学习信号并缓解奖励方差坍缩。
DSDR 扩展正确推理轨迹的多样性而非强化单一解，从而在不同 k 值下实现更强更可靠的 Pass@k 性能，尤其在正确解稀疏的基准上。
消融研究证实全局多样性（GD）与全局到局部耦合（GC）均不可或缺：移除任一均导致性能下降，尤其在复杂基准上，显示二者在促进定向探索中的互补作用。
训练动态显示，DSDR 通过结合仅限正确解的全局多样性与局部正则化维持平衡探索——更高熵而不失稳定，防止模式坍缩同时保持语义与公式级多样性。
多样性分析表明 DSDR 生成更广泛的推理策略而不牺牲正确性，经更高多样性得分与 pass@32 性能验证优于 DAPO。
超参数敏感性测试表明 DSDR 在适度正则化范围内稳定，λℓ = 0.001 和 λd = 0.001 在多个基准上取得最优且一致性能。
案例研究展示 DSDR 能为每个问题生成多个不同正确解，而 DAPO 倾向于有限或错误的推理模式，证实 DSDR 在受控且保持正确性的探索中的有效性。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DSDR：用于LLM推理中探索的双尺度多样性正则化

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong2 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DSDR：用于LLM推理中探索的双尺度多样性正则化

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong2 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DSDR：用于LLM推理中探索的双尺度多样性正则化

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong2 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong

Zhongwei Wan Yun Shen Zhihao Dou Donghao Zhou Yu Zhang Xin Wang Hui Shen Jing Xiong Chaofan Tao Zixuan Zhong