HyperAIHyperAI

Command Palette

Search for a command to run...

VLingNav : Navigation incarnée avec raisonnement adaptatif et mémoire linguistique assistée par l’image

Shaoan Wang Yuanfei Luo Xingyu Chen Aocheng Luo Dongyue Li Chang Liu Sheng Chen Yangang Zhang Junzhi Yu

Abstract

Les modèles VLA ont fait preuve d’un potentiel prometteur dans la navigation incarnée en unifiant perception et planification tout en héritant des capacités de généralisation robustes des grands modèles linguistiques-visuels (VLM). Toutefois, la plupart des modèles VLA existants s’appuient sur des cartographies réactives directes des observations vers les actions, manquant ainsi des capacités explicites de raisonnement et de mémoire persistante nécessaires pour des tâches de navigation complexes et à horizon long. Pour relever ces défis, nous proposons VLingNav, un modèle VLA pour la navigation incarnée fondé sur une cognition pilotée par le langage. Premièrement, inspirés par la théorie des deux processus de la cognition humaine, nous introduisons un mécanisme adaptatif de chaîne de raisonnement (chain-of-thought), qui déclenche dynamiquement le raisonnement explicite uniquement lorsque nécessaire, permettant à l’agent de basculer fluidement entre une exécution rapide et intuitive, et une planification lente et réfléchie. Deuxièmement, afin de gérer les dépendances spatiales à long terme, nous développons un module de mémoire linguistique assistée par la vision, qui construit une mémoire sémantique persistante et multimodale, permettant à l’agent de rappeler des observations passées afin d’éviter l’exploration redondante et d’inférer des tendances de mouvement dans des environnements dynamiques. Pour la recette d’entraînement, nous construisons Nav-AdaCoT-2.9M, le plus grand jeu de données de navigation incarnée à ce jour doté d’annotations de raisonnement, enrichi d’annotations adaptatives de chaîne de raisonnement (AdaCoT) qui induisent un paradigme de raisonnement capable d’ajuster à la fois le moment de penser et le contenu de la pensée. En outre, nous intégrons une phase d’apprentissage par renforcement guidée par un expert en ligne, permettant au modèle de dépasser l’apprentissage par imitation et d’acquérir des comportements de navigation plus robustes et auto-expérimentés. Des expériences étendues démontrent que VLingNav atteint des performances de pointe sur une large gamme de benchmarks de navigation incarnée. Notamment, VLingNav se transfère de manière zéro-shot vers des plateformes robotiques réelles, exécutant diverses tâches de navigation et démontrant une forte généralisation trans-domaine et trans-tâche.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp