HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

rStar2-Agent : Rapport technique sur le raisonnement agentique

rStar2-Agent : Rapport technique sur le raisonnement agentique

Résumé

Nous présentons rStar2-Agent, un modèle de raisonnement mathématique de 14 milliards de paramètres entraîné par apprentissage par renforcement agencé (agentic reinforcement learning), permettant d’atteindre des performances de pointe. Au-delà des longs raisonnements par chaîne de pensée (CoT) actuels, ce modèle fait preuve de comportements cognitifs avancés, tels qu’une réflexion attentive avant l’utilisation d’outils de codage en Python, ainsi qu’une capacité à analyser les retours d’exécution du code pour explorer, vérifier et affiner de manière autonome les étapes intermédiaires dans la résolution de problèmes complexes. Cette capacité repose sur trois innovations clés qui rendent l’apprentissage par renforcement agencé efficace à grande échelle : (i) une infrastructure d’apprentissage par renforcement efficace, associée à un environnement de code Python fiable, permettant une exécution à haut débit et réduisant les coûts élevés de génération de trajectoires (rollout), ce qui permet d’entraîner le modèle avec des ressources GPU limitées (64 GPU MI300X) ; (ii) GRPO-RoC, un algorithme d’apprentissage par renforcement agencé utilisant une stratégie de rééchantillonnage sur correction (Resample-on-Correct), qui atténue les bruits inhérents aux outils de codage, permettant ainsi au modèle de raisonner plus efficacement dans un environnement de code ; (iii) une recette d’entraînement d’agent efficace, commençant par une phase de fine-tuning sans raisonnement (SFT), puis progressant à travers plusieurs étapes d’apprentissage par renforcement, permettant d’acquérir des capacités cognitives avancées avec un coût informatique minimal. À cet effet, rStar2-Agent améliore un modèle pré-entraîné de 14 milliards de paramètres pour atteindre un état de l’art en seulement 510 étapes d’apprentissage par renforcement en une semaine, obtenant des scores moyens pass@1 de 80,6 % sur AIME24 et de 69,8 % sur AIME25, dépassant ainsi DeepSeek-R1 (671B) tout en produisant des réponses significativement plus courtes. Au-delà des mathématiques, rStar2-Agent-14B démontre également une forte capacité de généralisation aux tâches d’alignement, de raisonnement scientifique et d’utilisation d’outils agencés. Le code source et les recettes d’entraînement sont disponibles à l’adresse suivante : https://github.com/microsoft/rStar.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
rStar2-Agent : Rapport technique sur le raisonnement agentique | Articles de recherche | HyperAI