HyperAI
vor 4 Tagen

StreamVLN: Streaming Vision-und-Sprachnavigation durch SlowFast-Kontextmodellierung

Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
StreamVLN: Streaming Vision-und-Sprachnavigation durch SlowFast-Kontextmodellierung
Abstract

Vision-and-Language Navigation (VLN) in realen Szenarien erfordert von Agenten die Verarbeitung kontinuierlicher visueller Datenströme und die Erzeugung von Aktionen mit geringer Latenz, die auf sprachlichen Anweisungen basieren. Obwohl videobasierte große Sprachmodelle (Video-LLMs) kürzlich Fortschritte ermöglicht haben, stehen aktuelle VLN-Methoden, die auf Video-LLMs basieren, oft vor einem Spannungsfeld aus feingranularem visuellem Verständnis, langfristigem Kontextmodellierung und rechnerischer Effizienz. Wir stellen StreamVLN vor, einen strömenden VLN-Rahmen, der eine hybride Strategie zur langsamen und schnellen Kontextmodellierung einsetzt, um multimodales Schließen über abwechselnde visuelle, sprachliche und aktionsbezogene Eingaben zu unterstützen. Der schnelle Dialogkontext erleichtert durch ein Gleitfenster aktiver Dialoge die ressourcenschonende Generierung von Aktionen, während der langsam aktualisierte Gedächtnis-Kontext historische visuelle Zustände mittels einer 3D-bewussten Token-Reduktionstrategie komprimiert. Durch dieses langsames-schnelle Design erreicht StreamVLN kohärente mehrfache Dialogrunden durch effizienten Reuse des KV-Caches und unterstützt lange Videostreams mit begrenzter Kontextgröße und Inferenzkosten. Experimente anhand der VLN-CE-Benchmarks zeigen eine Spitzenleistung bei stabiler geringer Latenz, was Robustheit und Effizienz bei realer Einsatzsituation gewährleistet. Die Projektseite lautet: https://streamvln.github.io/.