HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

GEM : Un gymnase pour les LLM agents

GEM : Un gymnase pour les LLM agents

Résumé

Le paradigme d’entraînement des grands modèles linguistiques (LLM) évolue progressivement des jeux de données statiques vers un apprentissage fondé sur l’expérience, dans lequel les agents acquièrent des compétences grâce à l’interaction avec des environnements complexes. Pour faciliter cette transition, nous introduisons GEM (General Experience Maker), un simulateur d’environnement open source conçu pour l’ère des LLM. À l’instar d’OpenAI-Gym pour l’apprentissage par renforcement classique (RL), GEM fournit un cadre standardisé pour l’interface agent-environnement, incluant une exécution vectorisée asynchrone permettant un haut débit, ainsi que des wrappers flexibles facilitant l’extension. GEM propose également une diversité d’environnements, des outils intégrés robustes, et des scripts d'exemple en un seul fichier illustrant l’utilisation de GEM avec cinq cadres populaires d’apprentissage par renforcement. Par ailleurs, nous fournissons une série de résultats de référence sur 24 environnements, basés sur l’algorithme REINFORCE avec Normalisation par Batch des Retours (ReBN), qui — contrairement à GRPO — est compatible avec le cadre complet de l’apprentissage par renforcement incluant des récompenses denses par tour et offre une attribution de crédit améliorée. Nous menons par ailleurs une évaluation comparative directe de PPO, GRPO et REINFORCE, dans des configurations à tour unique et à plusieurs tours, à l’aide de GEM, afin d’analyser les choix architecturaux des algorithmes. Enfin, GEM s’impose également comme un outil pratique d’évaluation, en complément de son rôle d’environnement d’entraînement. Nous espérons que ce cadre contribuera à accélérer les recherches futures sur les LLM agents.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GEM : Un gymnase pour les LLM agents | Articles de recherche | HyperAI