il y a 5 mois

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan

Résumé

La capacité humaine à effectuer de manière fluide des raisonnements multimodaux et des interactions physiques dans un monde ouvert constitue un objectif central des systèmes intelligents incarnés à usage général. Les modèles récents vision-langage-action (VLA), entraînés conjointement sur de grandes quantités de données robotiques et visuelles-textuelles, ont montré des progrès notables dans le contrôle généralisé des robots. Toutefois, ils peinent encore à atteindre la souplesse humaine dans l’alternance entre raisonnement et interaction. Dans ce travail, nous introduisons EO-Robotics, composé du modèle EO-1 et du jeu de données EO-Data1.5M. Le modèle EO-1 est une fondation unifiée incarnée qui atteint des performances supérieures dans le raisonnement multimodal incarné et le contrôle robotique grâce à un pré-entraînement intercalé vision-langage-action. Le développement de EO-1 repose sur deux piliers essentiels : (i) une architecture unifiée capable de traiter indistinctement des entrées multimodales (images, textes, vidéos et actions), et (ii) un jeu de données massif et de haute qualité dédié au raisonnement incarné multimodal, EO-Data1.5M, comprenant plus de 1,5 million d’échantillons, avec un accent particulier sur la compréhension intercalée vision-langage-action. Le modèle EO-1 est entraîné grâce à une synergie entre une décodage auto-régressif et un débruitage par correspondance de flux sur le jeu de données EO-Data1.5M, permettant ainsi une génération fluide des actions robotiques et un raisonnement multimodal incarné. Des expériences étendues démontrent l’efficacité de l’apprentissage intercalé vision-langage-action pour la compréhension et la généralisation dans un monde ouvert, confirmée par une variété de tâches complexes à horizon long et de manipulation habile, réalisées sur plusieurs incarnations robotiques. Ce papier détaille l’architecture de EO-1, la stratégie de construction des données EO-Data1.5M et la méthodologie d’entraînement, offrant des perspectives précieuses pour le développement de modèles fondamentaux incarnés avancés.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Agent

Intelligence Incarnée

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Agent

Intelligence Incarnée

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan5 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan5 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan5 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan