HyperAI
il y a 2 jours

SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours
Résumé

Les récentes avancées dans l'apprentissage par renforcement ont montré que les modèles de langage peuvent développer un raisonnement sophistiqué grâce à l'entraînement sur des tâches avec des récompenses vérifiables, mais ces approches dépendent de paires problème-réponse curatées par des humains et d'une ingénierie de récompenses spécifique au domaine. Nous présentons SPIRAL, un cadre d'auto-jeu où les modèles apprennent en jouant des jeux à somme nulle sur plusieurs tours contre des versions continuellement améliorées d'eux-mêmes, éliminant ainsi le besoin de supervision humaine. Par l'intermédiaire de l'auto-jeu, SPIRAL génère un programme infini de problèmes progressivement plus complexes, car les modèles doivent constamment s'adapter à des adversaires plus forts. Pour permettre cet entraînement par auto-jeu à grande échelle, nous mettons en œuvre un système complet d'apprentissage par renforcement en ligne pour les modèles de langage (LLMs) et proposons une estimation avantageuse conditionnée par le rôle (RAE) pour stabiliser l'entraînement multi-agents. L'utilisation de SPIRAL pour l'auto-jeu sur des jeux à somme nulle produit des capacités de raisonnement largement transférables. L'entraînement du modèle Qwen3-4B-Base sur Kuhn Poker seul permet une amélioration de 8,6 % en mathématiques et de 8,4 % en raisonnement général, surpassant la formation supervisée (SFT) sur 25 000 trajectoires expertes de jeu. L'analyse révèle que ce transfert se produit grâce à trois schémas cognitifs : décomposition systématique, calcul de la valeur attendue et analyse cas par cas. L'entraînement multi-jeux (Morpion, Kuhn Poker, Négociation Simple) améliore encore davantage les performances car chaque jeu développe des forces distinctes en termes de raisonnement. L'application de SPIRAL à un modèle doté d'un fort raisonnement (DeepSeek-R1-Distill-Qwen-7B) peut toujours conduire à une amélioration moyenne de 2,0 %. Ces résultats démontrent que les jeux à somme nulle développent naturellement des capacités de raisonnement transférables, soulignant une direction prometteuse pour le développement autonome du raisonnement.