Command Palette
Search for a command to run...
D2E : Extension de l'apprentissage préalable vision-action sur des données de bureau pour le transfert vers l'intelligence artificielle incarnée
Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

Résumé
Les grands modèles linguistiques exploitent des données textuelles à l’échelle d’internet, mais l’intelligence artificielle incarnée (embodied AI) reste freinée par les coûts prohibitifs liés à la collecte de trajectoires physiques. Les environnements de bureau — en particulier les jeux vidéo — offrent une alternative prometteuse : ils permettent d’obtenir des interactions sensorimotrices riches à grande échelle tout en préservant le couplage structuré entre observation et action, essentiel pour l’apprentissage incarné. Nous présentons D2E (Desktop to Embodied AI), un cadre qui démontre que les interactions en environnement de bureau peuvent servir de substrat pré-entraînement efficace pour des tâches d’intelligence artificielle incarnée en robotique. Contrairement aux travaux antérieurs, restreints à un domaine spécifique (par exemple, VPT pour Minecraft) ou reposant sur des données propriétaires (comme SIMA), D2E établit une chaîne complète, de la collecte à grande échelle de données de bureau à la validation du transfert dans des domaines incarnés. Notre cadre repose sur trois composants : (1) l’outil OWA, qui uniformise diverses interactions de bureau dans un format standardisé, avec une compression de 152 fois ; (2) le modèle Generalist-IDM, qui atteint une forte généralisation zéro-shot sur des jeux inconnus grâce à une prédiction d’événements basée sur les horodatages, permettant ainsi une pseudo-étiquetage à l’échelle d’internet ; et (3) VAPT, qui transfère les représentations pré-entraînées sur bureau vers des tâches de manipulation et de navigation physique. Grâce à 1 300 heures de données (259 heures de démonstrations humaines et plus de 1 000 heures de jeu avec pseudo-étiquetage), nous obtenons un taux de réussite global de 96,6 % sur les benchmarks de manipulation LIBERO et de 83,3 % sur ceux de navigation CANVAS. Ces résultats confirment que les primitives sensorimotrices issues des interactions numériques présentent une invariance suffisante pour être transférées de manière significative vers des tâches incarnées physiques, établissant ainsi le pré-entraînement sur bureau comme une approche pratique pour la robotique. Nous rendrons l’intégralité de notre travail publique, incluant l’outil OWA, les jeux de données issus de collectes humaines et de pseudo-étiquetage, ainsi que les modèles entraînés avec VAPT, disponibles à l’adresse suivante : https://worv-ai.github.io/d2e/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.