HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par Renforcement à Entropie Maximale via Écoulement Normalisé Basé sur l'Énergie

Chen-Hao Chao∗1,2 Chien Feng∗1 Wei-Fang Sun2 Cheng-Kuang Lee2 Simon See2 Chun-Yi Lee†1

Résumé

Les méthodes de Reinforcement Learning (RL) existantes basées sur le principe du Maximum-Entropy (MaxEnt) pour des espaces d'actions continus sont généralement formulées selon des cadres acteur-critique et optimisées par des étapes alternées d'évaluation de la politique et d'amélioration de la politique. Dans les étapes d'évaluation de la politique, le critique est mis à jour pour capturer la fonction Q douce. Dans les étapes d'amélioration de la politique, l'acteur est ajusté conformément à la fonction Q douce mise à jour. Dans cet article, nous présentons un nouveau cadre MaxEnt RL modélisé à l'aide de flux normalisateurs basés sur l'énergie (Energy-Based Normalizing Flows, EBFlow). Ce cadre intègre les étapes d'évaluation de la politique et les étapes d'amélioration de la politique, aboutissant à un processus d'entraînement avec un objectif unique. Notre méthode permet le calcul de la fonction valeur douce utilisée dans l'objectif d'évaluation de la politique sans approximation Monte Carlo. De plus, cette conception soutient le modèle de distributions d'actions multi-modales tout en facilitant l'échantillonnage efficace des actions. Pour évaluer les performances de notre méthode, nous avons mené des expériences sur le banc d'essai MuJoCo et sur plusieurs tâches robotiques à haute dimension simulées par Omniverse Isaac Gym. Les résultats de l'évaluation montrent que notre méthode atteint des performances supérieures par rapport aux lignes directrices représentatives largement adoptées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage par Renforcement à Entropie Maximale via Écoulement Normalisé Basé sur l'Énergie | Articles | HyperAI