Command Palette
Search for a command to run...
DCPO: Optimierung der dynamischen Ausschneidpolitik
Shihui Yang Chengfeng Dou Peidong Guo Kai Lu Qiang Ju Fei Deng Rihui Xin

Abstract
Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als vielversprechender Ansatz zur Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle etabliert. Allerdings leiden bestehende Ansätze wie GRPO häufig unter Null-Gradienten. Dieses Problem entsteht vor allem aufgrund fester Clipping-Grenzen für die Token-Ebene und der Standardisierung identischer Belohnungen, was zu ineffektiven Gradientenupdates und einer unterentwickelten Nutzung generierter Antworten führen kann. In dieser Arbeit stellen wir Dynamic Clipping Policy Optimization (DCPO) vor, das eine dynamische Clipping-Strategie einführt, die die Clipping-Grenzen basierend auf token-spezifischen Prior-Wahrscheinlichkeiten adaptiv anpasst, um die Exploration auf Token-Ebene zu verbessern, sowie eine glatte Vorteils-Standardisierungstechnik, die Belohnungen über die kumulativen Trainingsstufen hinweg standardisiert, um die effektive Nutzung generierter Antworten auf Antwort-Ebene zu erhöhen. DCPO erreicht auf vier Benchmarks, die auf vier verschiedenen Modellen basieren, den Stand der Technik. Insbesondere erzielt DCPO bei Greedy-Decoding einen Avg@1-Wert von 46,7 und bei 32-maliger Sampling einen Avg@32-Wert von 38,8 auf dem AIME24-Benchmark – dies übertrifft sowohl DAPO (36,7/31,6) als auch GRPO (36,7/32,1) auf dem Qwen2.5-Math-7B-Modell. Auf dem AIME25-Benchmark basierend auf Qwen2.5-14B erreicht DCPO eine Leistung von (23,3/19,0), wobei GRPO (13,3/10,5) und DAPO (20,0/15,3) übertroffen werden. Zudem zeigt DCPO im Durchschnitt eine 28 %ige Verbesserung des nicht-nullen Vorteils gegenüber GRPO, verdoppelt die Trainings-Effizienz im Vergleich zu DAPO und verringert das Token-Clipping-Verhältnis im Vergleich zu sowohl GRPO als auch DAPO um eine Größenordnung, während gleichzeitig eine überlegene Leistung erzielt wird. Diese Ergebnisse unterstreichen die Effektivität von DCPO, generierte Daten in der Reinforcement-Learning-Optimierung großer Sprachmodelle effizienter zu nutzen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.