HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de modèles mondiaux d’actions latentes dans le monde réel

Quentin Garrido Tushar Nagarajan Basile Terver Nicolas Ballas Yann LeCun Michael Rabbat

Abstract

Les agents capables de raisonner et de planifier dans le monde réel doivent être en mesure de prédire les conséquences de leurs actions. Bien que les modèles mondiaux possèdent cette capacité, ils nécessitent généralement des étiquettes d’actions, qui sont souvent difficiles à obtenir à grande échelle. Cela motive l’apprentissage de modèles d’actions latentes, capables d’apprendre un espace d’actions à partir de vidéos seules. Ce travail aborde le problème de l’apprentissage de modèles mondiaux à actions latentes à partir de vidéos prises dans le monde réel (in-the-wild), élargissant ainsi le cadre des travaux existants qui se concentrent principalement sur des simulations robotiques simples, des jeux vidéo ou des données de manipulation. Bien que cette approche permette de capturer des actions plus riches, elle soulève également des défis liés à la diversité des vidéos, tels que le bruit environnemental ou l’absence d’une embodiment commune entre les vidéos. Pour relever certains de ces défis, nous discutons des propriétés que les actions devraient satisfaire, ainsi que des choix architecturaux pertinents et des méthodes d’évaluation. Nous constatons que des actions latentes continues, mais contraintes, sont capables de représenter la complexité des actions présentes dans les vidéos du monde réel — une capacité que les méthodes classiques de quantification vectorielle ne parviennent pas à atteindre. Par exemple, nous observons que des changements dans l’environnement dus à des agents, tels que l’entrée d’une personne dans une pièce, peuvent être transférés d’une vidéo à une autre. Cela met en évidence la capacité à apprendre des actions spécifiques aux vidéos du monde réel. En l’absence d’une embodiment commune entre les vidéos, nous sommes principalement en mesure d’apprendre des actions latentes localisées dans l’espace, par rapport à la caméra. Toutefois, nous parvenons à entraîner un contrôleur qui associe des actions connues à leurs représentations latentes, permettant ainsi d’utiliser les actions latentes comme une interface universelle et de résoudre des tâches de planification avec notre modèle mondial, avec des performances comparables à celles des modèles conditionnés par les actions. Nos analyses et expériences constituent une étape importante vers le déploiement à grande échelle des modèles d’actions latentes dans le monde réel.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp