StreamVLN : Navigation Vision-Langue en Streaming via la Modélisation du Contexte SlowFast

La navigation Vision-et-Langage (VLN) dans des environnements réels nécessite que les agents traitent des flux visuels continus et génèrent des actions à faible latence, en s'appuyant sur des instructions linguistiques. Bien que les grands modèles de langage basés sur la vidéo (Video-LLMs) aient permis des progrès récents, les méthodes actuelles de VLN fondées sur les Video-LLMs font souvent face à des compromis entre la compréhension visuelle détaillée, la modélisation du contexte à long terme et l'efficacité computationnelle. Nous présentons StreamVLN, un cadre de VLN en flux qui utilise une stratégie hybride de modélisation du contexte rapide-lent pour soutenir le raisonnement multi-modal sur des entrées visuelles, linguistiques et d'action entrelacées. Le contexte de dialogue en flux rapide facilite la génération d'actions réactives grâce à une fenêtre glissante de dialogues actifs, tandis que le contexte mémoire mis à jour lent compresse les états visuels historiques en utilisant une stratégie de prédécoupage de tokens 3D-conscients. Avec cette conception rapide-lente, StreamVLN parvient à maintenir un dialogue cohérent sur plusieurs tours grâce au réutilisation efficace du cache KV, ce qui permet de prendre en charge des flux vidéo longs avec une taille de contexte limitée et un coût d'inférence contrôlé. Les expériences menées sur les benchmarks VLN-CE montrent des performances de pointe avec une latence stable et faible, garantissant ainsi la robustesse et l'efficacité lors du déploiement dans le monde réel. La page du projet est :https://streamvln.github.io/{https://streamvln.github.io/}.