HyperAIHyperAI

Command Palette

Search for a command to run...

HawkEye: 動画とテキストのLLMを訓練して、テキストを動画に接地させる

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

概要

ビデオテキスト大規模言語モデル(ビデオテキスト LLM)は、単純なビデオに関する質問への回答や会話を行う上で著しい性能を示しています。しかし、長い複雑なビデオ内のテキストクエリの位置特定については、ほぼランダムな性能しか示せず、時間的な情報の理解と推論能力がほとんどありません。これは、ビデオと画像との最も基本的な違いです。本論文では、HawkEyeという新しいビデオテキストLLMを提案します。これは最初の完全なテキスト対テキスト方式で時間的なビデオ位置特定を行うモデルの一つです。時間的なビデオ位置特定に適した学習データを収集するために、セグメントレベルのキャプションと否定的スパンを持つ大規模なビデオテキストコーパスInternVid-Gを構築しました。これにより、新たに2つの時間認識型の学習目標をビデオテキストLLMに導入しています。また、ビデオ内のセグメント表現のための粗粒度手法も提案しており、他の代替手法よりもロバスト性が高く、LLMが学習しやすく従いやすい特徴があります。広範囲にわたる実験結果から、HawkEyeは既存のビデオテキストLLMと比較して時間的なビデオ位置特定において優れており、他のビデオテキストタスクでも同等以上の性能を示すことが確認されました。これらの結果は、HawkEyeが優れたビデオテキストマルチモーダル理解能力を持っていることを証明しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HawkEye: 動画とテキストのLLMを訓練して、テキストを動画に接地させる | 記事 | HyperAI超神経