Command Palette
Search for a command to run...
Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

要約
最近、リーディング・ファースト型のモデル(例:OpenAI o1、DeepSeek R1)の登場により、RLVR(Reinforcement Learning with Value-based Reward)への関心が再び高まっている。しかし、その進展は数学問題解決(例:AIME)に偏っており、競技プログラミング向けコード生成は十分に検討されておらず、データ収集はRLアルゴリズム設計に比べてあまり注目されていない。本研究では、RLVR用データセット(すなわちRLプロンプト)の構築方法を検討し、競技プログラミング向けコード生成において優れた性能を発揮する実用的な訓練手法を提示する。本研究のパイプラインは、強力なオープンソースモデルから微調整(SFT: Supervised Fine-Tuning)を用いて初期化し、汎用的かつ推論を要するデータで拡張する。その後、実行可能でテストケース駆動の報酬を用いた二段階の強化学習(RL)を実施する。第一段階では、競技プログラミングの問題を大規模かつ一様に分布させたデータセット上で、8回のロールアウト(rollout)毎プロンプト、かつ相対的に短い応答生成ウィンドウ(SFT段階では32k、本段階では24k)を用いたGroup Relative Policy Optimization(GRPO)により学習を行い、エントロピーの拡大と繰り返し・途中切断の抑制を図る。第二段階では、Pre-GRPOと称する手法を採用:難易度の高い小規模で高品質な問題セットを用い、1プロンプトあたり64回のロールアウトを許容する大規模なロールアウト予算で更新を実施。この段階では、学習全体を通じて最も困難なインスタンスを継続的に保持する「ハードフォーカス」型のカリキュラムを導入する。本手法はQwen2.5-32Bに実装され、LeetCodeおよびCodeforcesの週次コンテストで評価を行い、データ漏洩のリスクを回避している。得られたモデルは、同規模のモデル群の中で最先端の性能を達成し、DeepSeek v3.1やDoubao-1.5-Thinkingといった先進的システムと同等の水準に到達している。また、スケーリングの傾向を検証した結果、内部の大規模MoEモデルにおいても強化学習のスケーリング効果が顕著に観察された。本研究は、競技プログラミング向けコード生成におけるRLVRのデータ収集、エントロピー拡大、カリキュラム設計に関する明確かつ簡潔な最良実践(best practices)を提示した。