Koopman Q-learning : Apprentissage par renforcement hors ligne via les symétries des dynamiques

L'apprentissage par renforcement hors ligne exploite de grands jeux de données pour entraîner des politiques sans interaction avec l'environnement. Les politiques apprises peuvent ensuite être déployées dans des contextes réels où les interactions sont coûteuses ou dangereuses. Les algorithmes actuels souffrent d’un surajustement au jeu de données d’entraînement, ce qui se traduit par une mauvaise performance lors du déploiement sur des généralisations hors distribution de l’environnement. Nous visons à surmonter ces limitations en apprenant une représentation latente de Koopman, qui nous permet d’inférer les symétries des dynamiques sous-jacentes du système. Ces symétries sont ensuite utilisées pour étendre le jeu de données hors ligne, généralement statique, durant l’entraînement ; cela constitue un cadre novateur d’augmentation de données, reflétant la dynamique du système et pouvant donc être interprété comme une exploration de l’espace des phases de l’environnement. Pour extraire ces symétries, nous utilisons la théorie de Koopman, dans laquelle les dynamiques non linéaires sont représentées par un opérateur linéaire agissant sur l’espace des fonctions de mesure du système, permettant ainsi d’inférer directement les symétries des dynamiques. Nous fournissons de nouveaux résultats théoriques sur l’existence et la nature des symétries pertinentes pour les systèmes de contrôle, tels que les cadres d’apprentissage par renforcement. En outre, nous évaluons empiriquement notre méthode sur plusieurs tâches et jeux de données standards d’apprentissage par renforcement hors ligne, notamment D4RL, Metaworld et Robosuite, et constatons que l’utilisation de notre cadre permet d’améliorer de manière cohérente l’état de l’art des méthodes de Q-learning sans modèle.