4 days ago
StreamVLN:通过SlowFast上下文建模实现流式视觉-语言导航
Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang

摘要
在现实世界中,视觉-语言导航(VLN)要求代理能够处理连续的视觉流,并根据语言指令以低延迟生成动作。尽管基于视频的大型语言模型(Video-LLMs)推动了近期的进步,但当前基于 Video-LLM 的 VLN 方法通常在细粒度视觉理解、长期上下文建模和计算效率之间存在权衡。我们提出了一种名为 StreamVLN 的流式 VLN 框架,该框架采用混合慢快上下文建模策略,支持对交错的视觉、语言和动作输入进行多模态推理。快速流式对话上下文通过活动对话的滑动窗口促进响应式动作生成,而缓慢更新的记忆上下文则利用一种三维感知的令牌剪枝策略压缩历史视觉状态。通过这种慢快设计,StreamVLN 通过高效的键值缓存重用实现了连贯的多轮对话,支持具有有限上下文大小和推理成本的长视频流。在 VLN-CE 基准测试中的实验表明,StreamVLN 在保持低延迟的同时达到了最先进的性能,确保了其在现实世界部署中的鲁棒性和效率。项目页面为:https://streamvln.github.io/。注:文中“3D-aware token pruning”翻译为“三维感知的令牌剪枝”,以保持专业性和准确性。