HyperAIHyperAI

Command Palette

Search for a command to run...

SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours

Résumé

Les récentes avancées dans l'apprentissage par renforcement ont montré que les modèles de langage peuvent développer un raisonnement sophistiqué grâce à l'entraînement sur des tâches avec des récompenses vérifiables, mais ces approches dépendent de paires problème-réponse curatées par des humains et d'une ingénierie de récompenses spécifique au domaine. Nous présentons SPIRAL, un cadre d'auto-jeu où les modèles apprennent en jouant des jeux à somme nulle sur plusieurs tours contre des versions continuellement améliorées d'eux-mêmes, éliminant ainsi le besoin de supervision humaine. Par l'intermédiaire de l'auto-jeu, SPIRAL génère un programme infini de problèmes progressivement plus complexes, car les modèles doivent constamment s'adapter à des adversaires plus forts. Pour permettre cet entraînement par auto-jeu à grande échelle, nous mettons en œuvre un système complet d'apprentissage par renforcement en ligne pour les modèles de langage (LLMs) et proposons une estimation avantageuse conditionnée par le rôle (RAE) pour stabiliser l'entraînement multi-agents. L'utilisation de SPIRAL pour l'auto-jeu sur des jeux à somme nulle produit des capacités de raisonnement largement transférables. L'entraînement du modèle Qwen3-4B-Base sur Kuhn Poker seul permet une amélioration de 8,6 % en mathématiques et de 8,4 % en raisonnement général, surpassant la formation supervisée (SFT) sur 25 000 trajectoires expertes de jeu. L'analyse révèle que ce transfert se produit grâce à trois schémas cognitifs : décomposition systématique, calcul de la valeur attendue et analyse cas par cas. L'entraînement multi-jeux (Morpion, Kuhn Poker, Négociation Simple) améliore encore davantage les performances car chaque jeu développe des forces distinctes en termes de raisonnement. L'application de SPIRAL à un modèle doté d'un fort raisonnement (DeepSeek-R1-Distill-Qwen-7B) peut toujours conduire à une amélioration moyenne de 2,0 %. Ces résultats démontrent que les jeux à somme nulle développent naturellement des capacités de raisonnement transférables, soulignant une direction prometteuse pour le développement autonome du raisonnement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp