HyperAIHyperAI

Command Palette

Search for a command to run...

StreamVLN : Navigation Vision-Langue en Streaming via la Modélisation du Contexte SlowFast

Résumé

La navigation Vision-et-Langage (VLN) dans des environnements réels nécessite que les agents traitent des flux visuels continus et génèrent des actions à faible latence, en s'appuyant sur des instructions linguistiques. Bien que les grands modèles de langage basés sur la vidéo (Video-LLMs) aient permis des progrès récents, les méthodes actuelles de VLN fondées sur les Video-LLMs font souvent face à des compromis entre la compréhension visuelle détaillée, la modélisation du contexte à long terme et l'efficacité computationnelle. Nous présentons StreamVLN, un cadre de VLN en flux qui utilise une stratégie hybride de modélisation du contexte rapide-lent pour soutenir le raisonnement multi-modal sur des entrées visuelles, linguistiques et d'action entrelacées. Le contexte de dialogue en flux rapide facilite la génération d'actions réactives grâce à une fenêtre glissante de dialogues actifs, tandis que le contexte mémoire mis à jour lent compresse les états visuels historiques en utilisant une stratégie de prédécoupage de tokens 3D-conscients. Avec cette conception rapide-lente, StreamVLN parvient à maintenir un dialogue cohérent sur plusieurs tours grâce au réutilisation efficace du cache KV, ce qui permet de prendre en charge des flux vidéo longs avec une taille de contexte limitée et un coût d'inférence contrôlé. Les expériences menées sur les benchmarks VLN-CE montrent des performances de pointe avec une latence stable et faible, garantissant ainsi la robustesse et l'efficacité lors du déploiement dans le monde réel. La page du projet est :https://streamvln.github.io/{https://streamvln.github.io/}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
StreamVLN : Navigation Vision-Langue en Streaming via la Modélisation du Contexte SlowFast | Articles | HyperAI