MECD: 複数イベント因果発見の鍵となるビデオ推論

ビデオ因果推論は、因果の観点からビデオコンテンツの高レベルな理解を達成することを目指しています。しかし、現在のビデオ推論タスクは範囲が限定されており、主に質問応答形式で実行され、単一のイベントと単純な因果関係のみを含む短いビデオに焦点を当てています。これにより、複数のイベントを持つビデオにおける包括的かつ構造化された因果分析が欠けています。このギャップを埋めるため、私たちは新しいタスクとデータセットである「Multi-Event Causal Discovery (MECD)」を導入します。MECDは、時間的に分散した長編ビデオ内のイベント間の因果関係を明らかにすることを目指しています。視覚的なセグメントとイベントのテキスト記述が与えられた場合、MECDではこれらのイベント間の因果関連性を特定し、最終結果イベントがなぜそしてどのように起こったかを説明する包括的かつ構造化されたイベントレベルのビデオ因果図を作成することが求められます。MECDに対処するために、私たちはGranger因果法に着想を得た新しいフレームワークを開発しました。このフレームワークでは、効率的なマスクベースのイベント予測モデルを使用してEvent Granger Test(事象グラングァー検定)を行い、前提となるイベントがマスクされている場合とマスクされていない場合での予測結果イベントを比較することで因果関係を推定します。さらに、前門調整や反事実推論などの因果推論技術を取り入れることで、MECDにおける因果混雑や虚偽の因果関係といった課題に対処しています。実験結果は、私たちのフレームワークが多事件ビデオにおいて因果関係を提供する有効性を証明しており、GPT-4oおよびVideoLLaVAに対してそれぞれ5.7%および4.1%上回る性能を示しています。