il y a 4 mois

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan

Résumé

Le paradigme d’entraînement des grands modèles linguistiques (LLM) évolue progressivement des jeux de données statiques vers un apprentissage fondé sur l’expérience, dans lequel les agents acquièrent des compétences grâce à l’interaction avec des environnements complexes. Pour faciliter cette transition, nous introduisons GEM (General Experience Maker), un simulateur d’environnement open source conçu pour l’ère des LLM. À l’instar d’OpenAI-Gym pour l’apprentissage par renforcement classique (RL), GEM fournit un cadre standardisé pour l’interface agent-environnement, incluant une exécution vectorisée asynchrone permettant un haut débit, ainsi que des wrappers flexibles facilitant l’extension. GEM propose également une diversité d’environnements, des outils intégrés robustes, et des scripts d'exemple en un seul fichier illustrant l’utilisation de GEM avec cinq cadres populaires d’apprentissage par renforcement. Par ailleurs, nous fournissons une série de résultats de référence sur 24 environnements, basés sur l’algorithme REINFORCE avec Normalisation par Batch des Retours (ReBN), qui — contrairement à GRPO — est compatible avec le cadre complet de l’apprentissage par renforcement incluant des récompenses denses par tour et offre une attribution de crédit améliorée. Nous menons par ailleurs une évaluation comparative directe de PPO, GRPO et REINFORCE, dans des configurations à tour unique et à plusieurs tours, à l’aide de GEM, afin d’analyser les choix architecturaux des algorithmes. Enfin, GEM s’impose également comme un outil pratique d’évaluation, en complément de son rôle d’environnement d’entraînement. Nous espérons que ce cadre contribuera à accélérer les recherches futures sur les LLM agents.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

LLM

Apprentissage Par Renforcement

Benchmarks

Infrastructure D'ia

Approche/Framework

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

LLM

Apprentissage Par Renforcement

Benchmarks

Infrastructure D'ia

Approche/Framework

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

GEM : Un gymnase pour les LLM agents

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan9 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GEM : Un gymnase pour les LLM agents

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan9 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GEM : Un gymnase pour les LLM agents

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan9 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan