9일 전
MMTF: 다중 모달 시계열 융합을 통한 보편지식 영상 질의응답
{Sanguk Park, Dongchan Park, Geonwoo Park, Mobeen Ahmad}

초록
비디오 질문 응답은 비디오와 질문을 동일한 맥락에서 이해해야 하는 도전적인 과제이다. 특히 미래의 사건을 예측하거나 반사실적(Counterfactual) 사건을 설명하는 등의 추론을 포함하는 질문의 경우, 명시적으로 제시되지 않은 지식이 필요하므로 더욱 어려워진다. 기존의 방법들은 비디오와 언어 특징을 거친(fine-grained) 융합 방식을 사용하지만, 시간적 정보를 무시하는 경향이 있다. 이를 해결하기 위해 우리는 비디오와 질문의 시간적 맥락을 학습하는 새로운 비전-텍스트 융합 모듈을 제안한다. 본 모듈은 질문 토큰을 비디오의 시간 축 방향으로 확장하여 비디오 특징과 융합함으로써 국소적 및 전역적 맥락을 갖춘 새로운 표현을 생성한다. 제안한 방법은 MSVD-QA, NExT-QA, Causal-VidQA, AGQA-2.0를 포함한 네 가지 비디오 질문 응답 데이터셋에서 평가되었으며, 우수한 성능을 입증하였다.