Command Palette
Search for a command to run...
EPO : Optimisation de politique régularisée par entropie pour les agents LLM Apprentissage par renforcement
Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

Résumé
Former des agents basés sur des modèles linguistiques à grande échelle (LLM) dans des environnements à plusieurs tours avec des récompenses rares, où la réalisation d’une seule tâche nécessite plus de 30 échanges d’interactions au sein d’un épisode, pose un défi fondamental pour l’apprentissage par renforcement. Nous identifions un mode de défaillance critique propre à ce cadre : la défaillance en cascade exploration-exploitation. Cette cascade commence par une convergence prématurée de la politique à un stade précoce, où les retours rares poussent les agents à s’engager dans des stratégies erronées à faible entropie. Par la suite, les agents entrent dans une phase de effondrement de la politique à un stade avancé, où la régularisation classique de l’entropie devient contre-productive, favorisant une exploration chaotique qui destabilise l’apprentissage. Nous proposons Entropy-regularized Policy Optimization (EPO), un cadre général qui rompt ce cycle de défaillance grâce à trois mécanismes synergiques : (1) l’adoption de la régularisation de l’entropie dans les environnements à plusieurs tours afin d’améliorer l’exploration, (2) un régularisateur de lissage de l’entropie qui borne l’entropie de la politique dans des moyennes historiques afin d’éviter des fluctuations brutales, et (3) un poids adaptatif basé sur les phases, qui équilibre de manière dynamique exploration et exploitation tout au long de l’apprentissage. Notre analyse montre que EPO garantit une décroissance monotone de la variance de l’entropie tout en préservant la convergence. EPO permet d’obtenir une amélioration de performance allant jusqu’à 152 % sur ScienceWorld et jusqu’à 19,8 % sur ALFWorld. Ce travail démontre que les environnements à plusieurs tours avec récompenses rares exigent un contrôle de l’entropie fondamentalement différent de celui des méthodes classiques d’apprentissage par renforcement, avec des implications larges pour la formation des agents basés sur des LLM.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.