LoHoVLA : Un modèle unifié de vision, langage et action pour les tâches incarnées à long terme

Les agents incarnés dans le monde réel sont confrontés à des tâches à long terme, caractérisées par des objectifs de haut niveau nécessitant des solutions en plusieurs étapes au-delà d'actions simples. La navigation réussie de ces tâches exige à la fois une planification de haut niveau (c'est-à-dire, la décomposition des objectifs en sous-tâches) et un contrôle de mouvement de bas niveau (c'est-à-dire, la génération d'actions précises du robot). Bien que les modèles existants de vision-langage-action (VLA) et les architectures hiérarchiques offrent un potentiel dans les tâches incarnées, les premiers échouent souvent en matière de planification, tandis que les seconds peuvent souffrir de problèmes de coordination, tous deux entravant les performances. Nous présentons un nouveau cadre VLA unifié pour les tâches à long terme, appelé LoHoVLA, afin de surmonter ces limitations. LoHoVLA utilise un grand modèle pré-entraîné de vision-langage (VLM) comme base pour générer conjointement des jetons linguistiques et d'action pour la génération de sous-tâches et la prédiction d'actions robotiques, respectivement. Cette représentation partagée favorise une meilleure généralisation entre les tâches. De plus, LoHoVLA adopte un mécanisme de contrôle hiérarchique en boucle fermée pour atténuer les erreurs provenant tant de la planification de haut niveau que du contrôle de bas niveau. Pour entraîner LoHoVLA, nous introduisons LoHoSet, un ensemble de données construit sur le simulateur Ravens, comprenant 20 tâches à long terme, chacune avec 1 000 démonstrations d'experts composées d'observations visuelles, d'objectifs linguistiques, de sous-tâches et d'actions robotiques. Les résultats expérimentaux montrent que LoHoVLA dépasse considérablement à la fois les approches hiérarchiques et standard VLA dans les tâches incarnées à long terme dans le simulateur Ravens. Ces résultats soulignent l'engagement prometteur des architectures unifiées pour l'avancement d'une intelligence incarnée généralisable.