8ヶ月前

概要

大規模言語モデルとクロスモーダルアライメントの進歩により、既存のマルチモーダル動画理解手法はオフラインシナリオで優れた性能を達成しています。しかし、オンライン動画ストリームは現実世界で最も一般的なメディア形式の一つであり、ほとんど注目されていません。オフライン動画と比較して、オンライン動画ストリームの「動的」性質は既存モデルの直接的な適用に課題をもたらし、極めて長期的な情報の保存や連続的な視覚コンテンツと「非同期」ユーザー質問との相互作用などの新しい問題を導入します。本論文では、人間の記憶メカニズムを模倣したビデオ-言語モデルであるFlash-VStreamを提案します。当モデルはリアルタイムで極めて長い動画ストリームを処理し、同時にユーザーの問い合わせに応答することができます。既存のモデルと比較して、Flash-VStreamは推論遅延とVRAM消費量において大幅な削減を達成しており、これはオンラインストリーミング動画の理解を行う上で密接に関連しています。さらに、既存の動画理解ベンチマークが主にオフラインシナリオに焦点を当てていることを考慮し、オンライン動画ストリーム理解のために特別に設計された新しい質問応答ベンチマークVStream-QAを提案します。提案されたベンチマークでの既存の人気手法との比較により、当手法がこのような困難な設定において優れていることが示されています。当アプローチの汎用性を検証するため、さらに既存の動画理解ベンチマークでも評価を行い、オフラインシナリオでも最先端の性能を達成しています。すべてのコード、モデル、データセットは以下のURLから入手可能です: https://invinciblewyq.github.io/vstream-page/

ソースPDF コードを表示