2달 전
ENTER: 비디오QA를 위한 이벤트 기반 해석 가능한 추론
Ayyubi, Hammad ; Liu, Junzhang ; Asgarov, Ali ; Hakim, Zaber Ibn Abdul ; Sarker, Najibul Haque ; Wang, Zhecan ; Tang, Chia-Wei ; Alomari, Hani ; Atabuzzaman, Md. ; Lin, Xudong ; Dyava, Naveen Reddy ; Chang, Shih-Fu ; Thomas, Chris

초록
본 논문에서는 이벤트 그래프를 기반으로 하는 해석 가능한 비디오 질문 응답 (VideoQA) 시스템인 ENTER를 제시합니다. 이벤트 그래프는 비디오를 그래픽 표현으로 변환하여, 비디오 이벤트가 노드를 형성하고 이벤트-이벤트 관계 (시간적/인과적/계층적)가 엣지를 형성합니다. 이러한 구조화된 표현은 다음과 같은 많은 장점을 제공합니다: 1) 생성된 코드를 통해 이벤트 그래프를 분석하는 해석 가능한 VideoQA; 2) 이벤트 그래프를 통해 추론 과정(코드 생성)에서 문맥적인 시각 정보의 통합; 3) 계층적 반복 업데이트를 통한 강건한 VideoQA. 기존의 해석 가능한 VideoQA 시스템들은 종종 상향식(top-down) 접근 방식을 취하며, 추론 계획 생성 과정에서 저수준 시각 정보를 무시하므로 불안정할 수 있습니다. 반면 하향식(bottom-up) 접근 방식은 시각 데이터에서 응답을 생성하지만, 해석 가능성이 부족합니다. NExT-QA, IntentQA, 그리고 EgoSchema에 대한 실험 결과는 우리의 방법이 기존 상향식 접근 방식을 능가하면서도 하향식 접근 방식과 경쟁력 있는 성능을 보임을 입증하였으며, 무엇보다도 추론 과정에서 우수한 해석 가능성과 설명력을 제공함을 보여줍니다.