Réconciliation des abstractions spatiales et temporelles pour la représentation des objectifs

La représentation des objectifs influence les performances des algorithmes d’apprentissage par renforcement hiérarchique (HRL) en décomposant le problème d’apprentissage complexe en sous-tâches plus simples. Des études récentes montrent que les représentations préservant les dynamiques environnementales abstraites dans le temps s’avèrent efficaces pour résoudre des problèmes difficiles et offrent des garanties théoriques d’optimalité. Toutefois, ces approches peinent à s’échelonner à des tâches où la complexité des dynamiques environnementales augmente, c’est-à-dire lorsque les relations de transition abstraites dans le temps dépendent d’un nombre croissant de variables. À l’inverse, d’autres travaux ont tenté d’utiliser l’abstraction spatiale afin de surmonter ces limitations. Toutefois, leurs inconvénients incluent une mauvaise échelonnabilité dans des environnements à haute dimensionnalité et une dépendance aux connaissances a priori.Dans cet article, nous proposons un nouvel algorithme HRL à trois couches qui introduit, à différents niveaux de la hiérarchie, à la fois une abstraction d’objectif spatiale et une abstraction d’objectif temporelle. Nous menons une étude théorique des bornes de regret des politiques apprises. Nous évaluons notre approche sur des tâches complexes de contrôle continu, démontrant l’efficacité des abstractions spatiales et temporelles apprises par cette méthode. Le code source est disponible à l’adresse suivante : https://github.com/cosynus-lix/STAR.