Command Palette
Search for a command to run...
DRIVE : Meilleures pratiques de curatation de données pour l'apprentissage par renforcement avec récompense vérifiable dans la génération de code compétitive
Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

Résumé
Les modèles récents axés sur le raisonnement (par exemple, OpenAI o1, DeepSeek R1) ont relancé l'intérêt pour l'apprentissage par renforcement avec validation récursive (RLVR). Néanmoins, les progrès restent principalement concentrés sur les mathématiques (par exemple, AIME), tandis que la génération de code en programmation compétitive est largement sous-étudiée, et la curation de données reçoit moins d'attention que la conception d'algorithmes d'apprentissage par renforcement. Nous explorons comment construire des jeux de données pour le RLVR (c’est-à-dire des prompts de renforcement) et proposons des techniques d'entraînement pratiques permettant d'obtenir de fortes performances dans la génération de code pour la programmation compétitive. Notre pipeline commence par une fine-tuning supervisée (SFT) issue de modèles open-source performants, enrichie par des données générales et fortement orientées vers le raisonnement. L'apprentissage par renforcement suit ensuite un processus en deux étapes, basé sur des récompenses exécutables et pilotées par des tests : premièrement, l'entraînement sur un grand ensemble uniformément réparti de problèmes de programmation compétitive, via l'optimisation de politique relative par groupes (GRPO), avec 8 tirages par prompt et une fenêtre de génération de réponse relativement courte (par exemple, 32k durant la SFT, 24k dans cette étape), afin d'élargir l'entropie et de limiter les répétitions et les troncatures ; deuxièmement, nous appliquons un pré-GRPO : mise à jour sur un petit ensemble de haute qualité de problèmes difficiles, avec un important budget de tirages (64 tirages par prompt), dans le cadre d'un curriculum à fort focus qui conserve continuellement les instances les plus difficiles tout au long de l'entraînement. Nous avons mis en œuvre notre méthode sur Qwen2.5-32B et l'avons évaluée sur des concours hebdomadaires de LeetCode et Codeforces, afin d'éviter tout biais d'information (data leakage). Le modèle obtenu atteint des performances de pointe parmi les modèles de taille similaire, et se compare favorablement aux systèmes leaders tels que DeepSeek v3.1 et Doubao-1.5-Thinking. Nous examinons également les tendances d'échelle et observons une forte échelle de performance en RL sur un modèle interne à architecture MoE à grande échelle. Notre étude synthétise des pratiques optimales concises en matière de curation de données, d'expansion de l'entropie et de conception de curriculum pour le RLVR dans le contexte de la génération de code en programmation compétitive.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.