HyperAIHyperAI

Command Palette

Search for a command to run...

Koopman Q-learning : Apprentissage par renforcement hors ligne via les symétries des dynamiques

Matthias Weissenbacher Samarth Sinha Animesh Garg Yoshinobu Kawahara

Résumé

L'apprentissage par renforcement hors ligne exploite de grands jeux de données pour entraîner des politiques sans interaction avec l'environnement. Les politiques apprises peuvent ensuite être déployées dans des contextes réels où les interactions sont coûteuses ou dangereuses. Les algorithmes actuels souffrent d’un surajustement au jeu de données d’entraînement, ce qui se traduit par une mauvaise performance lors du déploiement sur des généralisations hors distribution de l’environnement. Nous visons à surmonter ces limitations en apprenant une représentation latente de Koopman, qui nous permet d’inférer les symétries des dynamiques sous-jacentes du système. Ces symétries sont ensuite utilisées pour étendre le jeu de données hors ligne, généralement statique, durant l’entraînement ; cela constitue un cadre novateur d’augmentation de données, reflétant la dynamique du système et pouvant donc être interprété comme une exploration de l’espace des phases de l’environnement. Pour extraire ces symétries, nous utilisons la théorie de Koopman, dans laquelle les dynamiques non linéaires sont représentées par un opérateur linéaire agissant sur l’espace des fonctions de mesure du système, permettant ainsi d’inférer directement les symétries des dynamiques. Nous fournissons de nouveaux résultats théoriques sur l’existence et la nature des symétries pertinentes pour les systèmes de contrôle, tels que les cadres d’apprentissage par renforcement. En outre, nous évaluons empiriquement notre méthode sur plusieurs tâches et jeux de données standards d’apprentissage par renforcement hors ligne, notamment D4RL, Metaworld et Robosuite, et constatons que l’utilisation de notre cadre permet d’améliorer de manière cohérente l’état de l’art des méthodes de Q-learning sans modèle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp