L'Apprentissage Meta-RL Favorise l'Exploration chez les Agents Linguistiques
L'Apprentissage Meta-RL Favorise l'Exploration chez les Agents Linguistiques
Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic
Abstract
L'apprentissage par renforcement (RL) a permis d'entraîner des agents basés sur des modèles linguistiques de grande taille (LLM) afin qu'ils interagissent avec l'environnement et résolvent des tâches complexes à plusieurs tours et à horizon long. Toutefois, les agents entraînés par RL peinent souvent à s'adapter efficacement aux tâches exigeant une exploration active, et ne parviennent pas à tirer pleinement parti des expériences issues d'essais-erreurs. Dans ce papier, nous proposons LaMer, un cadre général d'apprentissage par renforcement méta (Meta-RL) qui permet aux agents LLM d'explorer activement l'environnement et d'apprendre à partir des retours de celui-ci au moment de l'évaluation. LaMer se compose de deux composants clés : (i) un cadre d'entraînement inter-épisodes visant à encourager l'exploration et à optimiser les récompenses à long terme ; et (ii) une adaptation politique in-context par réflexion, permettant à l'agent de modifier sa politique en réponse à un signal de retour de tâche, sans recourir à une mise à jour par gradient. Des expérimentations menées dans divers environnements montrent que LaMer améliore significativement les performances par rapport aux méthodes de base en RL, avec des gains respectifs de 11 %, 14 % et 19 % sur les jeux Sokoban, MineSweeper et Webshop. En outre, LaMer démontre une meilleure généralisation à des tâches plus difficiles ou entièrement inédites par rapport aux agents entraînés par RL. Globalement, nos résultats démontrent que le Meta-RL fournit une approche structurée pour induire l'exploration chez les agents linguistiques, permettant une adaptation plus robuste aux environnements nouveaux grâce à des stratégies d'exploration apprises.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.