HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de dynamiques latentes pour la planification à partir de pixels

Danijar Hafner Timothy Lillicrap Ian Fischer Ruben Villegas David Ha Honglak Lee James Davidson

Résumé

La planification a été très efficace pour les tâches de contrôle dans des environnements à dynamiques connues. Pour tirer parti de la planification dans des environnements inconnus, l'agent doit apprendre les dynamiques à partir d'interactions avec le monde. Cependant, l'apprentissage de modèles de dynamiques suffisamment précis pour la planification reste un défi de longue date, en particulier dans les domaines basés sur des images. Nous proposons le réseau de planification profonde (Deep Planning Network ou PlaNet), un agent purement basé sur un modèle qui apprend les dynamiques de l'environnement à partir d'images et choisit ses actions grâce à une planification rapide en ligne dans l'espace latent. Pour atteindre des performances élevées, le modèle de dynamiques doit prédire avec précision les récompenses futures sur plusieurs pas de temps. Nous abordons ce problème en utilisant un modèle de dynamiques latent combinant des composantes déterministes et stochastiques. De plus, nous proposons un objectif d'inférence variationnelle multi-pas que nous appelons « overshooting latent ». En ne s'appuyant que sur des observations au niveau des pixels, notre agent résout des tâches de contrôle continu impliquant des dynamiques par contact, une observabilité partielle et des récompenses rares, qui surpassent la difficulté des tâches précédemment résolues par la planification avec des modèles appris. PlaNet utilise considérablement moins d'épisodes et atteint une performance finale proche voire supérieure à celle des algorithmes sans modèle performants.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp