2달 전

MECD: 비디오 추론에서 다중 이벤트 인과 관계 발견 해제

Chen, Tieyuan ; Liu, Huabin ; He, Tianyao ; Chen, Yihang ; Gan, Chaofan ; Ma, Xiao ; Zhong, Cheng ; Zhang, Yang ; Wang, Yingxue ; Lin, Hui ; Lin, Weiyao
MECD: 비디오 추론에서 다중 이벤트 인과 관계 발견 해제
초록

비디오 인과 추론은 인과 관점에서 비디오 콘텐츠의 고수준 이해를 목표로 합니다. 그러나 현재의 비디오 추론 작업은 범위가 제한적이고, 주로 질문-답변 패러다임으로 수행되며 단일 이벤트와 간단한 인과 관계만을 포함하는 짧은 비디오에 초점을 맞추고 있어, 여러 이벤트를 포함하는 비디오에 대한 포괄적이고 체계적인 인과성 분석이 부족합니다. 이러한 격차를 메우기 위해, 우리는 새로운 작업 및 데이터셋인 다중 이벤트 인과 발견(Multi-Event Causal Discovery, MECD)을 소개합니다. MECD는 시간적으로 분산된 장시간 비디오 내의 이벤트들 사이의 인과 관계를 밝히는 것을 목표로 합니다. 시각적 세그먼트와 이벤트의 텍스트 설명이 주어질 때, MECD는 이러한 이벤트들 사이의 인과 연관성을 식별하여 왜 그리고 어떻게 최종 결과 이벤트가 발생했는지를 설명하는 포괄적이고 구조화된 이벤트 수준의 비디오 인과도를 도출해야 합니다. MECD를 해결하기 위해, 우리는 Granger 인과성 방법에서 영감을 얻어 효율적인 마스크 기반 이벤트 예측 모델을 사용하여 Event Granger Test(이벤트 그兰저 테스트)를 수행하는 새로운 프레임워크를 설계했습니다. 이 테스트는 전제 이벤트가 마스킹되었을 때와 마스킹되지 않았을 때 예측된 결과 이벤트를 비교하여 인과성을 추정합니다. 또한, 우리는 전문 조정(front-door adjustment) 및 반사실 추론(counterfactual inference) 등의 인과 추론 기법을 통합하여 MECD에서 발생할 수 있는 혼동 요인(confounding) 및 환상적인 인과성(illusory causality) 같은 문제들을 해결하였습니다. 실험 결과, 우리의 프레임워크가 다중 이벤트 비디오에서 인과 관계 제공에 효과적이며, GPT-4o와 VideoLLaVA보다 각각 5.7%와 4.1% 높은 성능을 보였습니다.