4日前

StreamVLN: ストリーミング視覚言語ナビゲーションを用いたSlowFastコンテキストモデル링

Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang

論文の詳細を見る

StreamVLN: ストリーミング視覚言語ナビゲーションを用いたSlowFastコンテキストモデル링

要約

実世界環境におけるビジョン・アンド・ランゲージ・ナビゲーション（VLN）は、エージェントが連続的な視覚ストリームを処理し、言語指示に基づいて低遅延で行動を生成することを必要とします。ビデオベースの大型言語モデル（Video-LLMs）が最近の進歩を推進していますが、現在のVideo-LLMに基づくVLN手法は、詳細な視覚理解、長期的なコンテクストモデリング、および計算効率性の間でトレードオフに直面することが多いです。私たちはStreamVLNというストリーミングVLNフレームワークを導入します。このフレームワークはハイブリッドなスローファストコンテクストモデリング戦略を採用しており、視覚、言語、行動の入力を交互に処理するマルチモーダル推論をサポートします。高速ストリーミング対話コンテクストは、アクティブな対話のスライディングウィンドウを通じて応答性のある行動生成を促進します。一方、徐々に更新されるメモリコンテクストは3D認識トークンプルーニング戦略を使用して歴史的な視覚状態を圧縮します。このスローファスト設計により、StreamVLNは効率的なKVキャッシュ再利用によって一貫したマルチターン対話を達成し、コンテクストサイズと推論コストが制限されたまま長時間のビデオストリームをサポートします。VLN-CEベンチマークでの実験結果は、安定した低遅延とともに最先端の性能を示しており、実世界での展開において堅牢性と効率性が確保されています。プロジェクトページ: https://streamvln.github.io/{https://streamvln.github.io/}