HyperAIHyperAI

Command Palette

Search for a command to run...

SPICE : l'apprentissage par auto-jeu dans des environnements de corpus améliore le raisonnement

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Résumé

Les systèmes à amélioration autonome nécessitent une interaction avec l’environnement afin de s’adapter continuellement. Nous introduisons SPICE (Self-Play In Corpus Environments), un cadre d’apprentissage par renforcement dans lequel un seul modèle joue deux rôles : celui de Challenger, qui extrait des documents à partir d’un grand corpus pour générer des tâches de raisonnement diversifiées, et celui de Reasoner, qui les résout. Grâce à une dynamique antagoniste, le Challenger élabore automatiquement un parcours d’apprentissage au frontière des capacités du Reasoner, tandis que le fondement dans le corpus fournit un signal externe riche et pratiquement inépuisable, indispensable à une amélioration durable. Contrairement aux méthodes existantes de self-play non fondées sur un corpus, qui offrent des bénéfices plus limités, SPICE obtient des gains constants sur plusieurs familles de modèles, notamment +8,9 % en mathématiques et +9,8 % en raisonnement général. Notre analyse révèle que le fondement dans les documents constitue un élément clé de SPICE, permettant de générer continuellement des objectifs de plus en plus exigeants et de les atteindre, ce qui rend possible une amélioration autonome soutenue.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SPICE : l'apprentissage par auto-jeu dans des environnements de corpus améliore le raisonnement | Articles | HyperAI