il y a 8 heures

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Résumé

Mettre les agents incarnés en mesure de raisonner sur les tâches, de prévoir les conséquences physiques et de générer des actions précises est essentiel pour une manipulation polyvalente. Bien que les modèles récents Vision-Language-Action (VLA) aient exploité des modèles fondamentaux pré-entraînés, ils se concentrent généralement soit sur la planification linguistique, soit sur la prévision visuelle, de manière isolée. Ces approches intégrant rarement les deux capacités simultanément pour guider la génération d’actions, elles entraînent des performances sous-optimales dans des tâches de manipulation complexes et à horizon long. Pour combler cet écart, nous proposons BagelVLA, un modèle unifié qui intègre la planification linguistique, la prévision visuelle et la génération d’actions au sein d’un même cadre. Initialement construit à partir d’un modèle pré-entraîné de compréhension et de génération unifié, BagelVLA est entraîné à intercaler directement le raisonnement textuel et la prédiction visuelle dans la boucle d’exécution des actions. Pour coupler efficacement ces modalités, nous introduisons une méthode appelée Residual Flow Guidance (RFG), qui part d’une observation courante et exploite un débruitage à un seul pas pour extraire des caractéristiques visuelles prédictives, guidant ainsi la génération d’actions avec une latence minimale. Des expériences étendues montrent que BagelVLA surpassent significativement les modèles de référence existants sur plusieurs benchmarks simulés et réels, notamment dans les tâches exigeant un raisonnement multi-étapes.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 heures

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 heures

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

BagelVLA : Amélioration de la manipulation à horizon long grâce à la génération imbriquée vision-langage-action

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BagelVLA : Amélioration de la manipulation à horizon long grâce à la génération imbriquée vision-langage-action

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BagelVLA : Amélioration de la manipulation à horizon long grâce à la génération imbriquée vision-langage-action

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang