HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

DisCO: Stärkung großer Schlussfolgerungsmodelle durch diskriminative begrenzte Optimierung

Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

DisCO: Stärkung großer Schlussfolgerungsmodelle durch diskriminative begrenzte Optimierung

Abstract

Der jüngste Erfolg und die Offenheit von DeepSeek-R1 haben auf die Gruppen-Relative Policy Optimization (GRPO) als Verstärkungslernmethode für große Schlussfolgerungsmodelle (Large Reasoning Models, LRMs) weitreichende Aufmerksamkeit gelenkt. In dieser Arbeit analysieren wir das GRPO-Ziel unter einer binären Belohnungsstellung und offenbaren eine inhärente Beschränkung in Form einer fragebasierten Schwierigkeitsverzerrung. Zudem identifizieren wir eine Verbindung zwischen GRPO und herkömmlichen diskriminativen Methoden im überwachten Lernen. Ausgehend von diesen Erkenntnissen stellen wir einen neuen Rahmenwerk für die Verstärkung von LRMs vor, den sogenannten Discriminative Constrained Optimization (DisCO)-Ansatz, der auf dem Prinzip des diskriminativen Lernens basiert. Die zentralen Unterschiede zwischen DisCO und GRPO sowie dessen jüngsten Varianten liegen in folgenden Aspekten: (1) Statt des gruppenbasierten relativen Ziels wird ein diskriminatives Ziel verwendet, das durch eine Bewertungsfunktion definiert ist; (2) es wird auf clipp-basierte Surrogatfunktionen verzichtet zugunsten von nicht-clippenden RL-Surrogatzielen, die als Bewertungsfunktionen dienen; (3) es wird ein einfacher, jedoch wirksamer Ansatz zur eingeschränkten Optimierung angewendet, um die KL-Divergenz-Beschränkung zu erfüllen. Dadurch bietet DisCO gegenüber GRPO und dessen Varianten mehrere erhebliche Vorteile: (i) Die Schwierigkeitsverzerrung wird vollständig eliminiert, da diskriminative Ziele verwendet werden; (ii) die Entropieinstabilität in GRPO und dessen Varianten wird durch den Einsatz nicht-clippender Bewertungsfunktionen und eines eingeschränkten Optimierungsansatzes behoben, was zu langfristig stabilen Trainingsdynamiken führt; (iii) es ermöglicht die Integration fortschrittlicher Techniken des diskriminativen Lernens zur Bewältigung von Datenungleichgewichten, bei denen während des Trainings eine große Anzahl von Fragen mehr negative als positive generierte Antworten aufweist. Unsere Experimente zur Verbesserung der mathematischen Schlussfolgerungsfähigkeiten von SFT-gefeinerten Modellen zeigen, dass DisCO GRPO und dessen verbesserte Varianten wie DAPO erheblich übertrifft. Auf sechs Benchmark-Aufgaben erzielt DisCO im Durchschnitt eine Verbesserung um 7 % gegenüber GRPO und um 6 % gegenüber DAPO bei einem 1,5-Billionen-Modell.

Code-Repositories

optimization-ai/disco
Offiziell
pytorch
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DisCO: Stärkung großer Schlussfolgerungsmodelle durch diskriminative begrenzte Optimierung | Forschungsarbeiten | HyperAI