il y a 2 mois

Apprentissage de dynamiques latentes pour la planification à partir de pixels

Danijar Hafner; Timothy Lillicrap; Ian Fischer; Ruben Villegas; David Ha; Honglak Lee; James Davidson

Résumé

La planification a été très efficace pour les tâches de contrôle dans des environnements à dynamiques connues. Pour tirer parti de la planification dans des environnements inconnus, l'agent doit apprendre les dynamiques à partir d'interactions avec le monde. Cependant, l'apprentissage de modèles de dynamiques suffisamment précis pour la planification reste un défi de longue date, en particulier dans les domaines basés sur des images. Nous proposons le réseau de planification profonde (Deep Planning Network ou PlaNet), un agent purement basé sur un modèle qui apprend les dynamiques de l'environnement à partir d'images et choisit ses actions grâce à une planification rapide en ligne dans l'espace latent. Pour atteindre des performances élevées, le modèle de dynamiques doit prédire avec précision les récompenses futures sur plusieurs pas de temps. Nous abordons ce problème en utilisant un modèle de dynamiques latent combinant des composantes déterministes et stochastiques. De plus, nous proposons un objectif d'inférence variationnelle multi-pas que nous appelons « overshooting latent ». En ne s'appuyant que sur des observations au niveau des pixels, notre agent résout des tâches de contrôle continu impliquant des dynamiques par contact, une observabilité partielle et des récompenses rares, qui surpassent la difficulté des tâches précédemment résolues par la planification avec des modèles appris. PlaNet utilise considérablement moins d'épisodes et atteint une performance finale proche voire supérieure à celle des algorithmes sans modèle performants.