Klear-Reasoner: Weiterentwicklung der Schlussfolgerungsfähigkeit durch optimierte Politik-Clipping mit Gradientenerhaltung

Wir stellen Klear-Reasoner vor, ein Modell mit ausgeprägten Fähigkeiten im langen Schlussfolgern, das bei der Problemlösung sorgfältige Überlegungen zeigt und herausragende Leistungen auf mehreren Benchmarks erzielt. Obwohl bereits zahlreiche herausragende Arbeiten im Bereich Schlussfolgerungsmodelle existieren, bleiben die Reproduzierbarkeit hochleistungsfähiger Schlussfolgerungsmodelle weiterhin durch unvollständige Offenlegung von Trainingsdetails beeinträchtigt. In diesem Bericht wird das Schlussfolgerungsmodell umfassend analysiert, wobei der gesamte Post-Training-Ablauf – von der Datenvorbereitung über die langen Chain-of-Thought-Supervised Fine-Tuning (long CoT SFT) bis hin zur Verstärkungslernverfahren (RL) – abgedeckt wird, ergänzt durch detaillierte Ablationstudien für jedes experimentelle Komponente. Für die SFT-Daten zeigen unsere Experimente, dass eine geringe Anzahl hochwertiger Datenquellen effektiver ist als eine große Anzahl vielfältiger Quellen, und dass schwierige Beispiele ohne Genauigkeitsfilterung bessere Ergebnisse liefern können. Darüber hinaus untersuchen wir zwei zentrale Probleme der derzeitigen Clipping-Mechanismen im RL: Clipping unterdrückt kritische Erkundungssignale und ignoriert suboptimale Trajektorien. Um diese Herausforderungen zu bewältigen, schlagen wir Gradient-Preserving Clipping Policy Optimization (GPPO) vor, das Gradienten von geklipperten Tokens sanft zurückpropagiert. GPPO verbessert nicht nur die Erkundungsfähigkeit des Modells, sondern steigert auch dessen Effizienz beim Lernen aus negativen Beispielen. Klear-Reasoner zeigt außergewöhnliche Schlussfolgerungsfähigkeiten im Bereich Mathematik und Programmierung und erreicht auf AIME 2024 90,5 %, auf AIME 2025 83,2 %, auf LiveCodeBench V5 66,0 % und auf LiveCodeBench V6 58,1 %.