Command Palette
Search for a command to run...

Résumé
Le paradigme d’entraînement des grands modèles linguistiques (LLM) évolue progressivement des jeux de données statiques vers un apprentissage fondé sur l’expérience, dans lequel les agents acquièrent des compétences grâce à l’interaction avec des environnements complexes. Pour faciliter cette transition, nous introduisons GEM (General Experience Maker), un simulateur d’environnement open source conçu pour l’ère des LLM. À l’instar d’OpenAI-Gym pour l’apprentissage par renforcement classique (RL), GEM fournit un cadre standardisé pour l’interface agent-environnement, incluant une exécution vectorisée asynchrone permettant un haut débit, ainsi que des wrappers flexibles facilitant l’extension. GEM propose également une diversité d’environnements, des outils intégrés robustes, et des scripts d'exemple en un seul fichier illustrant l’utilisation de GEM avec cinq cadres populaires d’apprentissage par renforcement. Par ailleurs, nous fournissons une série de résultats de référence sur 24 environnements, basés sur l’algorithme REINFORCE avec Normalisation par Batch des Retours (ReBN), qui — contrairement à GRPO — est compatible avec le cadre complet de l’apprentissage par renforcement incluant des récompenses denses par tour et offre une attribution de crédit améliorée. Nous menons par ailleurs une évaluation comparative directe de PPO, GRPO et REINFORCE, dans des configurations à tour unique et à plusieurs tours, à l’aide de GEM, afin d’analyser les choix architecturaux des algorithmes. Enfin, GEM s’impose également comme un outil pratique d’évaluation, en complément de son rôle d’environnement d’entraînement. Nous espérons que ce cadre contribuera à accélérer les recherches futures sur les LLM agents.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.