Command Palette
Search for a command to run...
Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)
Das DisCO-Framework wurde im Mai 2025 von einem Forschungsteam der Texas A&M University vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „DisCO: Verstärkung großer Schlussfolgerungsmodelle durch diskriminative Optimierung unter NebenbedingungenEs wurde für die NeurIPS 2025 ausgewählt.
Das DisCO-Framework basiert auf dem Prinzip des diskriminativen Lernens: Positive Antworten werden stärker bewertet, während negative Antworten abgewertet werden, um LRMs zu festigen. Dieses Framework bietet deutliche Vorteile gegenüber Group Relative Policy Optimization (GRPO) und seinen Varianten.
(i) Durch die Annahme differenzierter Ziele wurde der Schwierigkeitsbias vollständig beseitigt;
(ii) Durch die Verwendung einer nicht-beschneidenden Bewertungsfunktion und einer Methode der eingeschränkten Optimierung wird das Entropie-Instabilitätsproblem in GRPO und seinen Varianten gelöst, was zu einer langen und stabilen Trainingsdynamik führt;
(iii) Ermöglicht die Integration fortgeschrittener diskriminativer Lernverfahren, um das Problem unausgewogener Daten zu lösen, bei denen während des Trainings eine große Anzahl von Fragen mehr negative als positive Antworten hervorruft.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.