HyperAIHyperAI

Command Palette

Search for a command to run...

BagelVLA : Amélioration de la manipulation à horizon long grâce à la génération imbriquée vision-langage-action

Résumé

Mettre les agents incarnés en mesure de raisonner sur les tâches, de prévoir les conséquences physiques et de générer des actions précises est essentiel pour une manipulation polyvalente. Bien que les modèles récents Vision-Language-Action (VLA) aient exploité des modèles fondamentaux pré-entraînés, ils se concentrent généralement soit sur la planification linguistique, soit sur la prévision visuelle, de manière isolée. Ces approches intégrant rarement les deux capacités simultanément pour guider la génération d’actions, elles entraînent des performances sous-optimales dans des tâches de manipulation complexes et à horizon long. Pour combler cet écart, nous proposons BagelVLA, un modèle unifié qui intègre la planification linguistique, la prévision visuelle et la génération d’actions au sein d’un même cadre. Initialement construit à partir d’un modèle pré-entraîné de compréhension et de génération unifié, BagelVLA est entraîné à intercaler directement le raisonnement textuel et la prédiction visuelle dans la boucle d’exécution des actions. Pour coupler efficacement ces modalités, nous introduisons une méthode appelée Residual Flow Guidance (RFG), qui part d’une observation courante et exploite un débruitage à un seul pas pour extraire des caractéristiques visuelles prédictives, guidant ainsi la génération d’actions avec une latence minimale. Des expériences étendues montrent que BagelVLA surpassent significativement les modèles de référence existants sur plusieurs benchmarks simulés et réels, notamment dans les tâches exigeant un raisonnement multi-étapes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp