DisCO: Stärkung großer Schlussfolgerungsmodelle durch diskriminative begrenzte Optimierung
Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

Abstract
Der jüngste Erfolg und die Offenheit von DeepSeek-R1 haben auf die Gruppen-Relative Policy Optimization (GRPO) als Verstärkungslernmethode für große Schlussfolgerungsmodelle (Large Reasoning Models, LRMs) weitreichende Aufmerksamkeit gelenkt. In dieser Arbeit analysieren wir das GRPO-Ziel unter einer binären Belohnungsstellung und offenbaren eine inhärente Beschränkung in Form einer fragebasierten Schwierigkeitsverzerrung. Zudem identifizieren wir eine Verbindung zwischen GRPO und herkömmlichen diskriminativen Methoden im überwachten Lernen. Ausgehend von diesen Erkenntnissen stellen wir einen neuen Rahmenwerk für die Verstärkung von LRMs vor, den sogenannten Discriminative Constrained Optimization (DisCO)-Ansatz, der auf dem Prinzip des diskriminativen Lernens basiert. Die zentralen Unterschiede zwischen DisCO und GRPO sowie dessen jüngsten Varianten liegen in folgenden Aspekten: (1) Statt des gruppenbasierten relativen Ziels wird ein diskriminatives Ziel verwendet, das durch eine Bewertungsfunktion definiert ist; (2) es wird auf clipp-basierte Surrogatfunktionen verzichtet zugunsten von nicht-clippenden RL-Surrogatzielen, die als Bewertungsfunktionen dienen; (3) es wird ein einfacher, jedoch wirksamer Ansatz zur eingeschränkten Optimierung angewendet, um die KL-Divergenz-Beschränkung zu erfüllen. Dadurch bietet DisCO gegenüber GRPO und dessen Varianten mehrere erhebliche Vorteile: (i) Die Schwierigkeitsverzerrung wird vollständig eliminiert, da diskriminative Ziele verwendet werden; (ii) die Entropieinstabilität in GRPO und dessen Varianten wird durch den Einsatz nicht-clippender Bewertungsfunktionen und eines eingeschränkten Optimierungsansatzes behoben, was zu langfristig stabilen Trainingsdynamiken führt; (iii) es ermöglicht die Integration fortschrittlicher Techniken des diskriminativen Lernens zur Bewältigung von Datenungleichgewichten, bei denen während des Trainings eine große Anzahl von Fragen mehr negative als positive generierte Antworten aufweist. Unsere Experimente zur Verbesserung der mathematischen Schlussfolgerungsfähigkeiten von SFT-gefeinerten Modellen zeigen, dass DisCO GRPO und dessen verbesserte Varianten wie DAPO erheblich übertrifft. Auf sechs Benchmark-Aufgaben erzielt DisCO im Durchschnitt eine Verbesserung um 7 % gegenüber GRPO und um 6 % gegenüber DAPO bei einem 1,5-Billionen-Modell.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.