vor 2 Tagen

DRIVE: Best Practices für die Datenaufbereitung bei der Verstärkungslernverfahren mit überprüfbarer Belohnung in der wettbewerbsorientierten Codeerzeugung

Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

Abstract

Kürzlich entstandene, auf Reasoning fokussierte Modelle (z. B. OpenAI o1, DeepSeek R1) haben ein erneutes Interesse an RLVR (Reinforcement Learning with Value-based Rewarding) geweckt. Dennoch dominieren Fortschritte in der Mathematik (z. B. AIME), während die Generierung von Wettbewerbs-Code noch unterentwickelt ist und die Datensammlung weniger Aufmerksamkeit erhält als die Entwicklung von RL-Algorithmen. In dieser Arbeit untersuchen wir, wie RLVR-Datensätze (d. h. RL-Prompts) konstruiert werden können, und präsentieren praktische Trainingsmethoden, die starke Leistung bei der Generierung von Wettbewerbs-Code erzielen. Unser Ansatz beginnt mit einer überwachten Feinabstimmung (SFT), die von leistungsstarken Open-Source-Modellen abgeleitet wird und durch allgemein anwendbare sowie reasoning-intensivere Daten erweitert wird. Anschließend folgt ein zweistufiger RL-Prozess mit ausführbaren, testbasierten Belohnungen: Zunächst wird auf einer großen, gleichmäßig verteilten Menge an Wettbewerbsaufgaben mit der Group Relative Policy Optimization (GRPO) trainiert, wobei pro Prompt 8 Rollouts und ein vergleichsweise kurzer Antwortgenerierungszeitraum (z. B. 32 k während der SFT, 24 k in dieser Phase) verwendet werden, um die Entropie zu erhöhen und Wiederholungen sowie Truncation zu verringern. Danach führen wir Pre-GRPO durch: eine Aktualisierung auf einer kleinen, hochwertigen Menge anspruchsvoller Aufgaben mit einem großen Rollout-Budget (64 Rollouts pro Prompt) unter einem hard-focus Curriculum, das während des gesamten Trainings die anspruchsvollsten Instanzen kontinuierlich beibehält. Wir implementieren unsere Methode auf Qwen2.5-32B und evaluieren sie anhand von LeetCode- und Codeforces-Wochenwettbewerben, um Datenleakage zu vermeiden. Das resultierende Modell erreicht Spitzenleistung unter Modellen vergleichbarer Größe und ist mit führenden Systemen wie DeepSeek v3.1 und Doubao-1.5-Thinking vergleichbar. Zudem untersuchen wir Skalierungstendenzen und beobachten eine starke Skalierungseffizienz von RL in einem internen, großskaligen MoE-Modell. Unser Studienergebnis fasst präzise Best Practices für die Datensammlung, die Entropieerweiterung und die Curriculum-Design in RLVR für die Generierung von Wettbewerbs-Code zusammen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DRIVE: Best Practices für die Datenaufbereitung bei der Verstärkungslernverfahren mit überprüfbarer Belohnung in der wettbewerbsorientierten Codeerzeugung

Speed Zhu Jianwei Cai Guang Chen Lulu Wu Saiyong Yang Wiggin Zhou

Abstract

KI mit KI entwickeln

Hyper Newsletters