Apprentissage par Renforcement à Entropie Maximale via Écoulement Normalisé Basé sur l'Énergie

Les méthodes de Reinforcement Learning (RL) existantes basées sur le principe du Maximum-Entropy (MaxEnt) pour des espaces d'actions continus sont généralement formulées selon des cadres acteur-critique et optimisées par des étapes alternées d'évaluation de la politique et d'amélioration de la politique. Dans les étapes d'évaluation de la politique, le critique est mis à jour pour capturer la fonction Q douce. Dans les étapes d'amélioration de la politique, l'acteur est ajusté conformément à la fonction Q douce mise à jour. Dans cet article, nous présentons un nouveau cadre MaxEnt RL modélisé à l'aide de flux normalisateurs basés sur l'énergie (Energy-Based Normalizing Flows, EBFlow). Ce cadre intègre les étapes d'évaluation de la politique et les étapes d'amélioration de la politique, aboutissant à un processus d'entraînement avec un objectif unique. Notre méthode permet le calcul de la fonction valeur douce utilisée dans l'objectif d'évaluation de la politique sans approximation Monte Carlo. De plus, cette conception soutient le modèle de distributions d'actions multi-modales tout en facilitant l'échantillonnage efficace des actions. Pour évaluer les performances de notre méthode, nous avons mené des expériences sur le banc d'essai MuJoCo et sur plusieurs tâches robotiques à haute dimension simulées par Omniverse Isaac Gym. Les résultats de l'évaluation montrent que notre méthode atteint des performances supérieures par rapport aux lignes directrices représentatives largement adoptées.