Command Palette
Search for a command to run...
SPICE : l'apprentissage par auto-jeu dans des environnements de corpus améliore le raisonnement
SPICE : l'apprentissage par auto-jeu dans des environnements de corpus améliore le raisonnement
Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston
Résumé
Les systèmes à amélioration autonome nécessitent une interaction avec l’environnement afin de s’adapter continuellement. Nous introduisons SPICE (Self-Play In Corpus Environments), un cadre d’apprentissage par renforcement dans lequel un seul modèle joue deux rôles : celui de Challenger, qui extrait des documents à partir d’un grand corpus pour générer des tâches de raisonnement diversifiées, et celui de Reasoner, qui les résout. Grâce à une dynamique antagoniste, le Challenger élabore automatiquement un parcours d’apprentissage au frontière des capacités du Reasoner, tandis que le fondement dans le corpus fournit un signal externe riche et pratiquement inépuisable, indispensable à une amélioration durable. Contrairement aux méthodes existantes de self-play non fondées sur un corpus, qui offrent des bénéfices plus limités, SPICE obtient des gains constants sur plusieurs familles de modèles, notamment +8,9 % en mathématiques et +9,8 % en raisonnement général. Notre analyse révèle que le fondement dans les documents constitue un élément clé de SPICE, permettant de générer continuellement des objectifs de plus en plus exigeants et de les atteindre, ce qui rend possible une amélioration autonome soutenue.