TimeSuite:グランド付きチューニングを活用した長時間動画理解におけるMLLMの性能向上

マルチモーダル大規模言語モデル(MLLM)は、短時間動画の理解において優れた性能を示している。しかし、長時間動画の理解については依然として課題が残っている。本論文では、既存の短時間動画用MLLMを長時間動画理解に適応させるための新しい設計群である「TimeSuite」を提案する。TimeSuiteは、長時間動画シーケンスを効率的に処理するシンプルかつ高効率なフレームワーク、MLLMの地盤付け(grounding)チューニングに適した高品質な動画データセット、および従来のQA形式に明示的な地盤付け監視を組み込むように設計された指示チューニングタスクから構成される。具体的には、VideoChatをベースに、長時間動画用MLLMとして「VideoChat-T」を提案する。これは、長時間動画のトークンを圧縮するためのトークンシャッフル機構と、視覚表現の時間的意識を強化するための「時間適応型位置符号化(Temporal Adaptive Position Encoding: TAPE)」を導入することで実現されている。同時に、9つのタスクと349,000件の高品質な地盤付けアノテーションを含む包括的な地盤付け中心の指示チューニングデータセット「TimePro」を提供する。特に、対応する時間スタンプの予測を伴った詳細な動画記述を実現する新たな指示チューニングタスク形式「時間的地盤付けキャプション(Temporal Grounded Caption)」を設計した。この明示的な時間的位置予測により、MLLMが記述生成時に適切な視覚コンテンツに注目するよう促され、LLMに起因する誤生成(ホールーシュレーション)のリスクを低減できる。実験結果から、TimeSuiteは短時間MLLMの長時間動画理解能力を効果的に向上させる成功したソリューションであることが示された。EgoschemaとVideoMMEのベンチマークにおいて、それぞれ5.6%および6.8%の性能向上を達成した。さらに、VideoChat-Tはゼロショットでの時間的地盤付け能力において堅牢であり、既存の最先端MLLMを顕著に上回る性能を発揮した。ファインチューニング後は、従来の教師あり専門モデルと同等の性能を達成した。