il y a 22 jours

D2E : Extension de l'apprentissage préalable vision-action sur des données de bureau pour le transfert vers l'intelligence artificielle incarnée

Voir les détails de l'article Voir le code

Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

D2E : Extension de l'apprentissage préalable vision-action sur des données de bureau pour le transfert vers l'intelligence artificielle incarnée

Résumé

Les grands modèles linguistiques exploitent des données textuelles à l’échelle d’internet, mais l’intelligence artificielle incarnée (embodied AI) reste freinée par les coûts prohibitifs liés à la collecte de trajectoires physiques. Les environnements de bureau — en particulier les jeux vidéo — offrent une alternative prometteuse : ils permettent d’obtenir des interactions sensorimotrices riches à grande échelle tout en préservant le couplage structuré entre observation et action, essentiel pour l’apprentissage incarné. Nous présentons D2E (Desktop to Embodied AI), un cadre qui démontre que les interactions en environnement de bureau peuvent servir de substrat pré-entraînement efficace pour des tâches d’intelligence artificielle incarnée en robotique. Contrairement aux travaux antérieurs, restreints à un domaine spécifique (par exemple, VPT pour Minecraft) ou reposant sur des données propriétaires (comme SIMA), D2E établit une chaîne complète, de la collecte à grande échelle de données de bureau à la validation du transfert dans des domaines incarnés. Notre cadre repose sur trois composants : (1) l’outil OWA, qui uniformise diverses interactions de bureau dans un format standardisé, avec une compression de 152 fois ; (2) le modèle Generalist-IDM, qui atteint une forte généralisation zéro-shot sur des jeux inconnus grâce à une prédiction d’événements basée sur les horodatages, permettant ainsi une pseudo-étiquetage à l’échelle d’internet ; et (3) VAPT, qui transfère les représentations pré-entraînées sur bureau vers des tâches de manipulation et de navigation physique. Grâce à 1 300 heures de données (259 heures de démonstrations humaines et plus de 1 000 heures de jeu avec pseudo-étiquetage), nous obtenons un taux de réussite global de 96,6 % sur les benchmarks de manipulation LIBERO et de 83,3 % sur ceux de navigation CANVAS. Ces résultats confirment que les primitives sensorimotrices issues des interactions numériques présentent une invariance suffisante pour être transférées de manière significative vers des tâches incarnées physiques, établissant ainsi le pré-entraînement sur bureau comme une approche pratique pour la robotique. Nous rendrons l’intégralité de notre travail publique, incluant l’outil OWA, les jeux de données issus de collectes humaines et de pseudo-étiquetage, ainsi que les modèles entraînés avec VAPT, disponibles à l’adresse suivante : https://worv-ai.github.io/d2e/

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

D2E : Extension de l'apprentissage préalable vision-action sur des données de bureau pour le transfert vers l'intelligence artificielle incarnée

Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

Résumé

Construire l'IA avec l'IA

Hyper Newsletters