HyperAIHyperAI

Command Palette

Search for a command to run...

StreamVLN: ストリーミング視覚言語ナビゲーションを用いたSlowFastコンテキストモデル링

概要

実世界環境におけるビジョン・アンド・ランゲージ・ナビゲーション(VLN)は、エージェントが連続的な視覚ストリームを処理し、言語指示に基づいて低遅延で行動を生成することを必要とします。ビデオベースの大型言語モデル(Video-LLMs)が最近の進歩を推進していますが、現在のVideo-LLMに基づくVLN手法は、詳細な視覚理解、長期的なコンテクストモデリング、および計算効率性の間でトレードオフに直面することが多いです。私たちはStreamVLNというストリーミングVLNフレームワークを導入します。このフレームワークはハイブリッドなスローファストコンテクストモデリング戦略を採用しており、視覚、言語、行動の入力を交互に処理するマルチモーダル推論をサポートします。高速ストリーミング対話コンテクストは、アクティブな対話のスライディングウィンドウを通じて応答性のある行動生成を促進します。一方、徐々に更新されるメモリコンテクストは3D認識トークンプルーニング戦略を使用して歴史的な視覚状態を圧縮します。このスローファスト設計により、StreamVLNは効率的なKVキャッシュ再利用によって一貫したマルチターン対話を達成し、コンテクストサイズと推論コストが制限されたまま長時間のビデオストリームをサポートします。VLN-CEベンチマークでの実験結果は、安定した低遅延とともに最先端の性能を示しており、実世界での展開において堅牢性と効率性が確保されています。プロジェクトページ: https://streamvln.github.io/{https://streamvln.github.io/}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています