2ヶ月前

タイムチャット:時間感応型マルチモーダル大規模言語モデルによる長尺ビデオ理解

Shuhuai Ren; Linli Yao; Shicheng Li; Xu Sun; Lu Hou
タイムチャット:時間感応型マルチモーダル大規模言語モデルによる長尺ビデオ理解
要約

本研究では、長編動画の理解に特化した時間感応型マルチモーダル大規模言語モデルであるTimeChatを提案します。当モデルは、以下の2つの主要なアーキテクチャ的な貢献を組み込んでいます。(1) タイムスタンプを認識するフレームエンコーダーで、視覚的なコンテンツと各フレームのタイムスタンプを結びつけます。(2) スライディングビデオQ-Formerで、異なる長さのビデオトークンシーケンスを生成し、様々な長さの動画に対応します。さらに、6つのタスクと合計12万5千インスタンスから構成される指示調整データセットを作成し、TimeChatの指示追従性能を向上させました。様々な動画理解タスク(密なキャプショニング、時間的基準付け、ハイライト検出など)における実験結果は、TimeChatが優れたゼロショット時間的局所化および推論能力を持つことを示しています。例えば、YouCook2においては+9.2 F1スコアと+2.8 CIDEr、QVHighlightsにおいては+5.8 HIT@1、Charades-STAにおいては+27.5 R@1 (IoU=0.5) の改善が見られました。これらは最先端のビデオ大規模言語モデルと比較して優れた結果であり、TimeChatは長編動画理解タスク向けの多機能ビデオアシスタントとして利用され、現実的なユーザ要件を満たす可能性を持っています。

タイムチャット:時間感応型マルチモーダル大規模言語モデルによる長尺ビデオ理解 | 最新論文 | HyperAI超神経