Command Palette
Search for a command to run...
Apprentissage de modèles mondiaux d’actions latentes dans le monde réel
Apprentissage de modèles mondiaux d’actions latentes dans le monde réel
Quentin Garrido Tushar Nagarajan Basile Terver Nicolas Ballas Yann LeCun Michael Rabbat
Abstract
Les agents capables de raisonner et de planifier dans le monde réel doivent être en mesure de prédire les conséquences de leurs actions. Bien que les modèles mondiaux possèdent cette capacité, ils nécessitent généralement des étiquettes d’actions, qui sont souvent difficiles à obtenir à grande échelle. Cela motive l’apprentissage de modèles d’actions latentes, capables d’apprendre un espace d’actions à partir de vidéos seules. Ce travail aborde le problème de l’apprentissage de modèles mondiaux à actions latentes à partir de vidéos prises dans le monde réel (in-the-wild), élargissant ainsi le cadre des travaux existants qui se concentrent principalement sur des simulations robotiques simples, des jeux vidéo ou des données de manipulation. Bien que cette approche permette de capturer des actions plus riches, elle soulève également des défis liés à la diversité des vidéos, tels que le bruit environnemental ou l’absence d’une embodiment commune entre les vidéos. Pour relever certains de ces défis, nous discutons des propriétés que les actions devraient satisfaire, ainsi que des choix architecturaux pertinents et des méthodes d’évaluation. Nous constatons que des actions latentes continues, mais contraintes, sont capables de représenter la complexité des actions présentes dans les vidéos du monde réel — une capacité que les méthodes classiques de quantification vectorielle ne parviennent pas à atteindre. Par exemple, nous observons que des changements dans l’environnement dus à des agents, tels que l’entrée d’une personne dans une pièce, peuvent être transférés d’une vidéo à une autre. Cela met en évidence la capacité à apprendre des actions spécifiques aux vidéos du monde réel. En l’absence d’une embodiment commune entre les vidéos, nous sommes principalement en mesure d’apprendre des actions latentes localisées dans l’espace, par rapport à la caméra. Toutefois, nous parvenons à entraîner un contrôleur qui associe des actions connues à leurs représentations latentes, permettant ainsi d’utiliser les actions latentes comme une interface universelle et de résoudre des tâches de planification avec notre modèle mondial, avec des performances comparables à celles des modèles conditionnés par les actions. Nos analyses et expériences constituent une étape importante vers le déploiement à grande échelle des modèles d’actions latentes dans le monde réel.