2 天前

DRIVE：面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践

Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

摘要

近期以推理为核心的模型（如 OpenAI o1、DeepSeek R1）推动了强化学习与验证反馈（RLVR）的复兴。然而，当前进展主要集中在数学推理任务（如 AIME）上，而竞赛编程代码生成仍处于探索不足的状态，数据集构建的重要性也远低于强化学习算法设计。本文研究如何构建适用于 RLVR 的数据集（即强化学习提示，RL prompts），并提出一系列实用的训练技术，显著提升了竞赛编程代码生成的性能。我们的方法流程始于从高性能开源模型中蒸馏得到的监督微调（SFT），并辅以通用性数据和高推理强度的数据进行增强。随后，强化学习阶段采用两阶段策略，结合可执行代码与测试用例驱动的奖励机制：第一阶段，使用大规模、均匀分布的竞赛编程问题进行训练，采用 Group Relative Policy Optimization（GRPO）算法，每条提示生成 8 次采样（rollouts），并设置较短的响应生成窗口（SFT 阶段为 32k，本阶段为 24k），以扩大输出熵，缓解重复生成与截断问题；第二阶段引入 Pre-GRPO 机制：在少量高质量、高难度问题上进行更新，采用更大的采样预算（每条提示 64 次 rollouts），并实施“硬聚焦”式课程学习策略，持续保留训练过程中最困难的样本，以提升模型在复杂问题上的求解能力。我们在 Qwen2.5-32B 模型上实现了该方法，并在 LeetCode 与 Codeforces 周赛数据集上进行评估，以避免数据泄露。所获得的模型在同规模模型中达到当前最优性能，且与 DeepSeek v3.1、Doubao-1.5-Thinking 等领先系统表现相当。我们还进一步分析了模型扩展趋势，发现在内部大规模 MoE 模型上，强化学习展现出显著的可扩展性。本研究总结出一套简洁而有效的最佳实践，涵盖数据集构建、输出熵扩展以及课程设计等关键环节，为竞赛编程代码生成中的 RLVR 应用提供了可复现的指导方案。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DRIVE：面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践

Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

摘要

用 AI 构建 AI

Hyper Newsletters