Command Palette
Search for a command to run...
EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

Résumé
La capacité humaine à effectuer de manière fluide des raisonnements multimodaux et des interactions physiques dans un monde ouvert constitue un objectif central des systèmes intelligents incarnés à usage général. Les modèles récents vision-langage-action (VLA), entraînés conjointement sur de grandes quantités de données robotiques et visuelles-textuelles, ont montré des progrès notables dans le contrôle généralisé des robots. Toutefois, ils peinent encore à atteindre la souplesse humaine dans l’alternance entre raisonnement et interaction. Dans ce travail, nous introduisons EO-Robotics, composé du modèle EO-1 et du jeu de données EO-Data1.5M. Le modèle EO-1 est une fondation unifiée incarnée qui atteint des performances supérieures dans le raisonnement multimodal incarné et le contrôle robotique grâce à un pré-entraînement intercalé vision-langage-action. Le développement de EO-1 repose sur deux piliers essentiels : (i) une architecture unifiée capable de traiter indistinctement des entrées multimodales (images, textes, vidéos et actions), et (ii) un jeu de données massif et de haute qualité dédié au raisonnement incarné multimodal, EO-Data1.5M, comprenant plus de 1,5 million d’échantillons, avec un accent particulier sur la compréhension intercalée vision-langage-action. Le modèle EO-1 est entraîné grâce à une synergie entre une décodage auto-régressif et un débruitage par correspondance de flux sur le jeu de données EO-Data1.5M, permettant ainsi une génération fluide des actions robotiques et un raisonnement multimodal incarné. Des expériences étendues démontrent l’efficacité de l’apprentissage intercalé vision-langage-action pour la compréhension et la généralisation dans un monde ouvert, confirmée par une variété de tâches complexes à horizon long et de manipulation habile, réalisées sur plusieurs incarnations robotiques. Ce papier détaille l’architecture de EO-1, la stratégie de construction des données EO-Data1.5M et la méthodologie d’entraînement, offrant des perspectives précieuses pour le développement de modèles fondamentaux incarnés avancés.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.