HyperAIHyperAI

Command Palette

Search for a command to run...

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

Date

vor 2 Monaten

Organization

Paper URL

2505.12366

Das DisCO-Framework wurde im Mai 2025 von einem Forschungsteam der Texas A&M University vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „DisCO: Verstärkung großer Schlussfolgerungsmodelle durch diskriminative Optimierung unter NebenbedingungenEs wurde für die NeurIPS 2025 ausgewählt.

Das DisCO-Framework basiert auf dem Prinzip des diskriminativen Lernens: Positive Antworten werden stärker bewertet, während negative Antworten abgewertet werden, um LRMs zu festigen. Dieses Framework bietet deutliche Vorteile gegenüber Group Relative Policy Optimization (GRPO) und seinen Varianten.

(i) Durch die Annahme differenzierter Ziele wurde der Schwierigkeitsbias vollständig beseitigt;

(ii) Durch die Verwendung einer nicht-beschneidenden Bewertungsfunktion und einer Methode der eingeschränkten Optimierung wird das Entropie-Instabilitätsproblem in GRPO und seinen Varianten gelöst, was zu einer langen und stabilen Trainingsdynamik führt;

(iii) Ermöglicht die Integration fortgeschrittener diskriminativer Lernverfahren, um das Problem unausgewogener Daten zu lösen, bei denen während des Trainings eine große Anzahl von Fragen mehr negative als positive Antworten hervorruft.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp