4時間前

概要

多モーダル大規模言語モデル（MLLM）の各種ビデオタスクへの応用は進展しているものの、ビデオイベント予測（VEP）は依然として十分に研究されていません。VEP は、モデルにビデオの細粒度な時間モデル化を行い、ビデオと将来のイベント間の論理的関係を構築することを要求しますが、現在の MLLM はこの点で依然として困難に直面しています。本研究では、まず VEP タスクにおける主要な MLLM の包括的な評価を行い、予測精度が不十分な要因を明らかにしました。具体的には、将来イベントの予測における論理的推論能力の欠如、および視覚情報の活用不足が挙げられます。これらの課題に対処するため、私たちは「イベント連鎖（Chain of Events: CoE）」という新たなパラダイムを提案します。このアプローチは、時間的なイベント連鎖を構築することで、MLLM が視覚内容およびビデオと将来のイベント間の論理的関係に暗黙的に注力することを強制し、複数の学習プロトコルを通じてモデルの推論能力を促進します。公開ベンチマークにおける実験結果は、本手法が主要なオープンソースおよび商用 MLLM を上回り、VEP タスクにおいて新たな最先端（state-of-the-art）を確立することを示しています。コードおよびモデルは近日公開予定です。

ソースPDF