Command Palette
Search for a command to run...
Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)
Das DisCO-Framework wurde im Mai 2025 von einem Forschungsteam der Texas A&M University vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „DisCO: Verstärkung großer Schlussfolgerungsmodelle durch diskriminative Optimierung unter NebenbedingungenEs wurde für die NeurIPS 2025 ausgewählt.
Das DisCO-Framework basiert auf dem Prinzip des diskriminativen Lernens: Positive Antworten werden stärker bewertet, während negative Antworten abgewertet werden, um LRMs zu festigen. Dieses Framework bietet deutliche Vorteile gegenüber Group Relative Policy Optimization (GRPO) und seinen Varianten.
(i) Durch die Annahme differenzierter Ziele wurde der Schwierigkeitsbias vollständig beseitigt;
(ii) Durch die Verwendung einer nicht-beschneidenden Bewertungsfunktion und einer Methode der eingeschränkten Optimierung wird das Entropie-Instabilitätsproblem in GRPO und seinen Varianten gelöst, was zu einer langen und stabilen Trainingsdynamik führt;
(iii) Ermöglicht die Integration fortgeschrittener diskriminativer Lernverfahren, um das Problem unausgewogener Daten zu lösen, bei denen während des Trainings eine große Anzahl von Fragen mehr negative als positive Antworten hervorruft.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.