il y a 6 mois

Résumé

Nous présentons Klear-Reasoner, un modèle doté de capacités de raisonnement longues qui démontre une réflexion méticuleuse lors de la résolution de problèmes, atteignant des performances exceptionnelles sur plusieurs benchmarks. Bien qu’il existe déjà de nombreux travaux remarquables sur les modèles d’inférence dans la communauté actuelle, de nombreux défis persistent quant à la reproductibilité des modèles d’inférence à haute performance, en raison d’une divulgation incomplète des détails d’entraînement. Ce rapport propose une analyse approfondie du modèle de raisonnement, couvrant l’intégralité du processus post-entraînement, depuis la préparation des données et le fine-tuning supervisé en chaîne de raisonnement longue (long CoT SFT) jusqu’à l’apprentissage par renforcement (RL), accompagnée de tests d’ablation détaillés pour chaque composant expérimental. Concernant les données de SFT, nos expériences montrent qu’un petit nombre de sources de données de haute qualité est plus efficace qu’un grand nombre de sources diversifiées, et que les exemples difficiles permettent d’obtenir de meilleurs résultats sans filtrage basé sur la précision. En outre, nous étudions deux problèmes clés liés aux mécanismes de découpage actuels dans le cadre de l’RL : le découpage supprime les signaux critiques d’exploration et ignore les trajectoires sous-optimales. Pour relever ces défis, nous proposons une méthode appelée Gradient-Preserving clipping Policy Optimization (GPPO), qui transmet doucement les gradients provenant des tokens découplés. GPPO améliore non seulement la capacité d’exploration du modèle, mais aussi son efficacité dans l’apprentissage à partir d’échantillons négatifs. Klear-Reasoner fait preuve de capacités exceptionnelles de raisonnement en mathématiques et en programmation, obtenant un score de 90,5 % sur AIME 2024, 83,2 % sur AIME 2025, 66,0 % sur LiveCodeBench V5 et 58,1 % sur LiveCodeBench V6.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Affinage Supervisé

LLM

Entraînement Du Modèle

Approche/Framework

Zhenpeng Su Leiyu Pan Xue Bai Dening Liu Guanting Dong Jiaming Huang Wenping Hu Guorui Zhou

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Affinage Supervisé

LLM

Entraînement Du Modèle

Approche/Framework

Zhenpeng Su Leiyu Pan Xue Bai Dening Liu Guanting Dong Jiaming Huang Wenping Hu Guorui Zhou

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient | Articles | HyperAI

Command Palette

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Zhenpeng Su Leiyu Pan Xue Bai Dening Liu Guanting Dong Jiaming Huang Wenping Hu Guorui Zhou

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Zhenpeng Su Leiyu Pan Xue Bai Dening Liu Guanting Dong Jiaming Huang Wenping Hu Guorui Zhou

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Klear-Reasoner : Progresser dans la capacité de raisonnement grâce à l'optimisation de la politique de découpage préserver le gradient

Zhenpeng Su Leiyu Pan Xue Bai Dening Liu Guanting Dong Jiaming Huang Wenping Hu Guorui Zhou

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters