2ヶ月前
VTimeLLM: 大規模言語モデルにビデオの瞬間を理解させる能力を付与する
Bin Huang; Xin Wang; Hong Chen; Zihan Song; Wenwu Zhu

要約
大規模言語モデル(LLMs)は、優れたテキスト理解能力を示しており、この能力はビデオデータの視覚的な詳細を理解するためのビデオLLMsに拡張されています。しかし、既存のビデオLLMsは全体的なビデオの粗い説明しか提供できず、特定のイベントの正確な開始時間と終了時間の境界を捉えることができません。本論文では、この問題を解決するために、VTimeLLMという新しいビデオLLMを提案します。VTimeLLMは、時間境界に対する細かいビデオモーメント理解と推論を行うために設計されています。具体的には、VTimeLLMは境界認識型の3段階トレーニング戦略を採用しています。この戦略は、特徴量合わせのために画像-テキストペアを利用し、時間境界認識度を高めるために複数イベントが含まれるビデオを使用し、さらに時間理解能力を向上させるとともに人間の意図と合わせるために高品質なビデオ指示調整を行います。広範な実験により、Temporal Video GroundingやDense Video Captioningなどの細かい時間関連理解タスクにおいて、VTimeLLMが既存のビデオLLMsよりも著しく優れていることが示されました。また、ビデオの細かい時間理解による利点により、VTimeLLMはビデオ対話ベンチマークでも既存のビデオLLMsを超えており、その優れたクロスモーダル理解および推論能力が確認されています。