9일 전
비디오를 조건부 그래프 계층으로 활용한 다중 군집 질문 응답
Junbin Xiao, Angela Yao, Zhiyuan Liu, Yicong Li, Wei Ji, Tat-Seng Chua

초록
비디오 질의응답은 모델이 복잡한 비디오 데이터와 언어 데이터를 이해하고 추론하여 정확한 답변을 도출할 수 있어야 한다. 기존의 연구들은 두 모달리티(비디오 및 언어)에서 정보를 융합하기 위해 복잡한 교차 모달 상호작용을 설계하는 데 주력해 왔으며, 비디오와 질문을 프레임 및 단어 시퀀스의 전반적인 구조로 인코딩하는 방식을 취하고 있다. 이러한 방법들은 성공을 거두긴 했지만, 본질적으로 비디오 및 질문의 내용이 시퀀셜한 성격을 지닌다는 점에 기반을 두고 있어, 질의응답 문제에 대한 깊이 있는 통찰을 제공하지 못하며, 해석 가능성(해석 가능성)도 부족한 실정이다. 본 연구에서는 비디오가 프레임 시퀀스로 제시되더라도, 시각적 요소(예: 객체, 행동, 활동, 사건 등)는 시퀀셜한 것이 아니라 의미 공간에서 계층적인 구조를 가진다고 주장한다. 언어 질의 내 다중 크기의 개념적 특성을 반영하기 위해, 본 연구는 텍스트적 단서를 기반으로 하여 서로 다른 세부 수준의 시각적 사실들을 계층적으로 연결한 조건부 그래프 계층 구조로 비디오를 모델링하는 새로운 접근을 제안한다. 간단한 구조임에도 불구하고, 광범위한 실험을 통해 본 모델이 기존 방법들에 비해 뛰어난 성능을 보이며, 다양한 유형의 질문에 대해 더 우수한 일반화 능력을 갖추고 있음을 입증하였다. 또한 추가 분석을 통해 예측된 답변에 대해 의미 있는 시각-언어 증거를 제시함으로써 모델의 신뢰성도 입증되었다.