Command Palette
Search for a command to run...
BagelVLA : Amélioration de la manipulation à horizon long grâce à la génération imbriquée vision-langage-action
BagelVLA : Amélioration de la manipulation à horizon long grâce à la génération imbriquée vision-langage-action
Résumé
Mettre les agents incarnés en mesure de raisonner sur les tâches, de prévoir les conséquences physiques et de générer des actions précises est essentiel pour une manipulation polyvalente. Bien que les modèles récents Vision-Language-Action (VLA) aient exploité des modèles fondamentaux pré-entraînés, ils se concentrent généralement soit sur la planification linguistique, soit sur la prévision visuelle, de manière isolée. Ces approches intégrant rarement les deux capacités simultanément pour guider la génération d’actions, elles entraînent des performances sous-optimales dans des tâches de manipulation complexes et à horizon long. Pour combler cet écart, nous proposons BagelVLA, un modèle unifié qui intègre la planification linguistique, la prévision visuelle et la génération d’actions au sein d’un même cadre. Initialement construit à partir d’un modèle pré-entraîné de compréhension et de génération unifié, BagelVLA est entraîné à intercaler directement le raisonnement textuel et la prédiction visuelle dans la boucle d’exécution des actions. Pour coupler efficacement ces modalités, nous introduisons une méthode appelée Residual Flow Guidance (RFG), qui part d’une observation courante et exploite un débruitage à un seul pas pour extraire des caractéristiques visuelles prédictives, guidant ainsi la génération d’actions avec une latence minimale. Des expériences étendues montrent que BagelVLA surpassent significativement les modèles de référence existants sur plusieurs benchmarks simulés et réels, notamment dans les tâches exigeant un raisonnement multi-étapes.