il y a 7 mois

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin

Résumé

Les récentes avancées dans l'apprentissage par renforcement ont montré que les modèles de langage peuvent développer un raisonnement sophistiqué grâce à l'entraînement sur des tâches avec des récompenses vérifiables, mais ces approches dépendent de paires problème-réponse curatées par des humains et d'une ingénierie de récompenses spécifique au domaine. Nous présentons SPIRAL, un cadre d'auto-jeu où les modèles apprennent en jouant des jeux à somme nulle sur plusieurs tours contre des versions continuellement améliorées d'eux-mêmes, éliminant ainsi le besoin de supervision humaine. Par l'intermédiaire de l'auto-jeu, SPIRAL génère un programme infini de problèmes progressivement plus complexes, car les modèles doivent constamment s'adapter à des adversaires plus forts. Pour permettre cet entraînement par auto-jeu à grande échelle, nous mettons en œuvre un système complet d'apprentissage par renforcement en ligne pour les modèles de langage (LLMs) et proposons une estimation avantageuse conditionnée par le rôle (RAE) pour stabiliser l'entraînement multi-agents. L'utilisation de SPIRAL pour l'auto-jeu sur des jeux à somme nulle produit des capacités de raisonnement largement transférables. L'entraînement du modèle Qwen3-4B-Base sur Kuhn Poker seul permet une amélioration de 8,6 % en mathématiques et de 8,4 % en raisonnement général, surpassant la formation supervisée (SFT) sur 25 000 trajectoires expertes de jeu. L'analyse révèle que ce transfert se produit grâce à trois schémas cognitifs : décomposition systématique, calcul de la valeur attendue et analyse cas par cas. L'entraînement multi-jeux (Morpion, Kuhn Poker, Négociation Simple) améliore encore davantage les performances car chaque jeu développe des forces distinctes en termes de raisonnement. L'application de SPIRAL à un modèle doté d'un fort raisonnement (DeepSeek-R1-Distill-Qwen-7B) peut toujours conduire à une amélioration moyenne de 2,0 %. Ces résultats démontrent que les jeux à somme nulle développent naturellement des capacités de raisonnement transférables, soulignant une direction prometteuse pour le développement autonome du raisonnement.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Apprentissage Par Renforcement

Reasoning

Entraînement Du Modèle

Approche/Framework

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Apprentissage Par Renforcement

Reasoning

Entraînement Du Modèle

Approche/Framework

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SPIRAL : L'auto-jeu dans les jeux à somme nulle incite à la réflexion par le biais de l'apprentissage par renforcement multi-agents et multi-tours

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin

Bo Liu Leon Guertler Simon Yu Zichen Liu Penghui Qi Daniel Balcells Mickel Liu Cheston Tan Weiyan Shi Min Lin