Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Nous présentons Klear-Reasoner, un modèle doté de capacités de raisonnement longues qui démontre une réflexion méticuleuse lors de la résolution de problèmes, atteignant des performances exceptionnelles sur plusieurs benchmarks. Bien qu’il existe déjà de nombreux travaux remarquables sur les modèles d’inférence dans la communauté actuelle, de nombreux défis persistent quant à la reproductibilité des modèles d’inférence à haute performance, en raison d’une divulgation incomplète des détails d’entraînement. Ce rapport propose une analyse approfondie du modèle de raisonnement, couvrant l’intégralité du processus post-entraînement, depuis la préparation des données et le fine-tuning supervisé en chaîne de raisonnement longue (long CoT SFT) jusqu’à l’apprentissage par renforcement (RL), accompagnée de tests d’ablation détaillés pour chaque composant expérimental. Concernant les données de SFT, nos expériences montrent qu’un petit nombre de sources de données de haute qualité est plus efficace qu’un grand nombre de sources diversifiées, et que les exemples difficiles permettent d’obtenir de meilleurs résultats sans filtrage basé sur la précision. En outre, nous étudions deux problèmes clés liés aux mécanismes de découpage actuels dans le cadre de l’RL : le découpage supprime les signaux critiques d’exploration et ignore les trajectoires sous-optimales. Pour relever ces défis, nous proposons une méthode appelée Gradient-Preserving clipping Policy Optimization (GPPO), qui transmet doucement les gradients provenant des tokens découplés. GPPO améliore non seulement la capacité d’exploration du modèle, mais aussi son efficacité dans l’apprentissage à partir d’échantillons négatifs. Klear-Reasoner fait preuve de capacités exceptionnelles de raisonnement en mathématiques et en programmation, obtenant un score de 90,5 % sur AIME 2024, 83,2 % sur AIME 2025, 66,0 % sur LiveCodeBench V5 et 58,1 % sur LiveCodeBench V6.