2ヶ月前

HawkEye: 動画とテキストのLLMを訓練して、テキストを動画に接地させる

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

要約

ビデオテキスト大規模言語モデル（ビデオテキスト LLM）は、単純なビデオに関する質問への回答や会話を行う上で著しい性能を示しています。しかし、長い複雑なビデオ内のテキストクエリの位置特定については、ほぼランダムな性能しか示せず、時間的な情報の理解と推論能力がほとんどありません。これは、ビデオと画像との最も基本的な違いです。本論文では、HawkEyeという新しいビデオテキストLLMを提案します。これは最初の完全なテキスト対テキスト方式で時間的なビデオ位置特定を行うモデルの一つです。時間的なビデオ位置特定に適した学習データを収集するために、セグメントレベルのキャプションと否定的スパンを持つ大規模なビデオテキストコーパスInternVid-Gを構築しました。これにより、新たに2つの時間認識型の学習目標をビデオテキストLLMに導入しています。また、ビデオ内のセグメント表現のための粗粒度手法も提案しており、他の代替手法よりもロバスト性が高く、LLMが学習しやすく従いやすい特徴があります。広範囲にわたる実験結果から、HawkEyeは既存のビデオテキストLLMと比較して時間的なビデオ位置特定において優れており、他のビデオテキストタスクでも同等以上の性能を示すことが確認されました。これらの結果は、HawkEyeが優れたビデオテキストマルチモーダル理解能力を持っていることを証明しています。