il y a 3 mois

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Résumé

Les systèmes à amélioration autonome nécessitent une interaction avec l’environnement afin de s’adapter continuellement. Nous introduisons SPICE (Self-Play In Corpus Environments), un cadre d’apprentissage par renforcement dans lequel un seul modèle joue deux rôles : celui de Challenger, qui extrait des documents à partir d’un grand corpus pour générer des tâches de raisonnement diversifiées, et celui de Reasoner, qui les résout. Grâce à une dynamique antagoniste, le Challenger élabore automatiquement un parcours d’apprentissage au frontière des capacités du Reasoner, tandis que le fondement dans le corpus fournit un signal externe riche et pratiquement inépuisable, indispensable à une amélioration durable. Contrairement aux méthodes existantes de self-play non fondées sur un corpus, qui offrent des bénéfices plus limités, SPICE obtient des gains constants sur plusieurs familles de modèles, notamment +8,9 % en mathématiques et +9,8 % en raisonnement général. Notre analyse révèle que le fondement dans les documents constitue un élément clé de SPICE, permettant de générer continuellement des objectifs de plus en plus exigeants et de les atteindre, ce qui rend possible une amélioration autonome soutenue.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Apprentissage Par Renforcement

LLM

Agent

Approche/Framework

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Apprentissage Par Renforcement

LLM

Agent

Approche/Framework

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SPICE : l'apprentissage par auto-jeu dans des environnements de corpus améliore le raisonnement

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SPICE : l'apprentissage par auto-jeu dans des environnements de corpus améliore le raisonnement

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SPICE : l'apprentissage par auto-jeu dans des environnements de corpus améliore le raisonnement

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters