HyperAIHyperAI
il y a 11 jours

Apprentissage par renforcement avec flux latent

Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran, Yang Gao, Pieter Abbeel, Michael Laskin
Apprentissage par renforcement avec flux latent
Résumé

L'information temporelle est essentielle pour apprendre des politiques efficaces en apprentissage par renforcement (RL). Toutefois, les algorithmes de RL d'avant-garde actuels supposent généralement que cette information est fournie comme partie intégrante de l'espace d'état, ou, lorsqu'ils apprennent à partir d'images, utilisent l'heuristique simple de l'empilement de trames (frame-stacking) pour capturer implicitement l'information temporelle présente dans les observations visuelles. Cette approche heuristique s'oppose au paradigme actuel des architectures de classification vidéo, qui exploitent des encodages explicites de l'information temporelle via des méthodes telles que le flux optique et les architectures à deux voies afin d'atteindre des performances de pointe. Inspirés par les architectures leaders de classification vidéo, nous introduisons le Flow of Latents for Reinforcement Learning (Flare), une architecture réseau pour le RL qui encode explicitement l'information temporelle à travers les différences entre des vecteurs latents. Nous montrons que Flare (i) retrouve des performances optimales dans le cadre du RL basé sur l'état, sans accès explicite à la vitesse de l'état, uniquement à partir d'informations de position, (ii) atteint des performances de pointe sur des tâches complexes de contrôle continu à base d'images dans le cadre du benchmark DeepMind Control, notamment la marche quadrupède, le saut du hopper, le tourne-doigt difficile, le balancement du pendule et la course du walker, et constitue l'algorithme de RL sans modèle basé sur les pixels le plus efficace en termes d'échantillonnage, surpassant l'état de l'art précédent de 1,9 fois et 1,5 fois respectivement sur les benchmarks de 500 000 et 1 million d'étapes, et (iv) lorsqu'il est enrichi par rapport à Rainbow DQN, surpassant ce modèle de référence de pointe sur 5 des 8 jeux difficiles d'Atari au benchmark de 100 millions d'étapes.

Apprentissage par renforcement avec flux latent | Articles de recherche récents | HyperAI