HyperAIHyperAI

Command Palette

Search for a command to run...

Klear-Reasoner: Weiterentwicklung der Schlussfolgerungsfähigkeit durch optimierte Politik-Clipping mit Gradientenerhaltung

Zhenpeng Su Leiyu Pan Xue Bai Dening Liu Guanting Dong Jiaming Huang Wenping Hu Guorui Zhou

Zusammenfassung

Wir stellen Klear-Reasoner vor, ein Modell mit ausgeprägten Fähigkeiten im langen Schlussfolgern, das bei der Problemlösung sorgfältige Überlegungen zeigt und herausragende Leistungen auf mehreren Benchmarks erzielt. Obwohl bereits zahlreiche herausragende Arbeiten im Bereich Schlussfolgerungsmodelle existieren, bleiben die Reproduzierbarkeit hochleistungsfähiger Schlussfolgerungsmodelle weiterhin durch unvollständige Offenlegung von Trainingsdetails beeinträchtigt. In diesem Bericht wird das Schlussfolgerungsmodell umfassend analysiert, wobei der gesamte Post-Training-Ablauf – von der Datenvorbereitung über die langen Chain-of-Thought-Supervised Fine-Tuning (long CoT SFT) bis hin zur Verstärkungslernverfahren (RL) – abgedeckt wird, ergänzt durch detaillierte Ablationstudien für jedes experimentelle Komponente. Für die SFT-Daten zeigen unsere Experimente, dass eine geringe Anzahl hochwertiger Datenquellen effektiver ist als eine große Anzahl vielfältiger Quellen, und dass schwierige Beispiele ohne Genauigkeitsfilterung bessere Ergebnisse liefern können. Darüber hinaus untersuchen wir zwei zentrale Probleme der derzeitigen Clipping-Mechanismen im RL: Clipping unterdrückt kritische Erkundungssignale und ignoriert suboptimale Trajektorien. Um diese Herausforderungen zu bewältigen, schlagen wir Gradient-Preserving Clipping Policy Optimization (GPPO) vor, das Gradienten von geklipperten Tokens sanft zurückpropagiert. GPPO verbessert nicht nur die Erkundungsfähigkeit des Modells, sondern steigert auch dessen Effizienz beim Lernen aus negativen Beispielen. Klear-Reasoner zeigt außergewöhnliche Schlussfolgerungsfähigkeiten im Bereich Mathematik und Programmierung und erreicht auf AIME 2024 90,5 %, auf AIME 2025 83,2 %, auf LiveCodeBench V5 66,0 % und auf LiveCodeBench V6 58,1 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp