Command Palette

Search for a command to run...

2 天前

DRIVE:面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践

Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

DRIVE:面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践

摘要

近期以推理为核心的模型(如 OpenAI o1、DeepSeek R1)推动了强化学习与验证反馈(RLVR)的复兴。然而,当前进展主要集中在数学推理任务(如 AIME)上,而竞赛编程代码生成仍处于探索不足的状态,数据集构建的重要性也远低于强化学习算法设计。本文研究如何构建适用于 RLVR 的数据集(即强化学习提示,RL prompts),并提出一系列实用的训练技术,显著提升了竞赛编程代码生成的性能。我们的方法流程始于从高性能开源模型中蒸馏得到的监督微调(SFT),并辅以通用性数据和高推理强度的数据进行增强。随后,强化学习阶段采用两阶段策略,结合可执行代码与测试用例驱动的奖励机制:第一阶段,使用大规模、均匀分布的竞赛编程问题进行训练,采用 Group Relative Policy Optimization(GRPO)算法,每条提示生成 8 次采样(rollouts),并设置较短的响应生成窗口(SFT 阶段为 32k,本阶段为 24k),以扩大输出熵,缓解重复生成与截断问题;第二阶段引入 Pre-GRPO 机制:在少量高质量、高难度问题上进行更新,采用更大的采样预算(每条提示 64 次 rollouts),并实施“硬聚焦”式课程学习策略,持续保留训练过程中最困难的样本,以提升模型在复杂问题上的求解能力。我们在 Qwen2.5-32B 模型上实现了该方法,并在 LeetCode 与 Codeforces 周赛数据集上进行评估,以避免数据泄露。所获得的模型在同规模模型中达到当前最优性能,且与 DeepSeek v3.1、Doubao-1.5-Thinking 等领先系统表现相当。我们还进一步分析了模型扩展趋势,发现在内部大规模 MoE 模型上,强化学习展现出显著的可扩展性。本研究总结出一套简洁而有效的最佳实践,涵盖数据集构建、输出熵扩展以及课程设计等关键环节,为竞赛编程代码生成中的 RLVR 应用提供了可复现的指导方案。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DRIVE:面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践 | 论文 | HyperAI超神经