LITA: 言語指示時系列局所化アシスタント

多モーダル大規模言語モデル(Multimodal Large Language Models, LLMs)において、著しい進歩が見られています。最近の研究では、これらのモデルをビデオ入力に対応させ、指示に従う能力が有望な結果を示しています。しかし、重要な欠落部分として時間局在化があります。これらのモデルは、「いつ?」という質問に対して正確に答えることができません。私たちは、時間局在化能力を制限する3つの主要な側面を特定しました:(i) 時間表現、(ii) アーキテクチャ、(iii) データです。これらの課題に対処するために、言語指示による時間局在化アシスタント(Language Instructed Temporal-Localization Assistant, LITA)を提案し、以下の特徴を持っています:(1) 動画の長さに対する相対的なタイムスタンプを符号化する時間トークンを導入することで、動画における時間をより適切に表現します。(2) アーキテクチャ内にSlowFastトークンを導入し、微細な時間解像度で時間情報を捉えます。(3) LITAのための時間局在化データの重要性を強調します。既存のタイムスタンプ付きビデオデータセットを利用するだけでなく、このタスクの学習と評価のために新しいタスクである推論時間局在化(Reasoning Temporal Localization, RTL)とそのデータセットであるActivityNet-RTLを提案します。推論時間局在化は、ビデオLLMが推論と時間局在化を行うことを必要とします。LITAはこの難易度の高いタスクにおいて優れた性能を示し、ベースラインモデルの平均交差率(mean Intersection-over-Union, mIoU)をほぼ倍増させる成果を上げています。さらに、私たちの提案は既存のビデオLLMよりもビデオに基づくテキスト生成も大幅に改善しており、特に時間理解に関する相対的な改善率が36%となっています。コードは以下から入手可能です: https://github.com/NVlabs/LITA