
초록
비디오 질문 응답(QA)은 비디오 시간 구조를 이해하는 데 중요한 작업입니다. 우리는 이미지 QA와 비교하여 비디오 QA가 세 가지 독특한 속성을 가지고 있다는 것을 관찰하였습니다: (1) 더 많은 정보량과 다양성을 포함하는 긴 이미지 시퀀스를 처리합니다; (2) 움직임과 외관 정보는 서로 상관관계가 있으며, 서로에게 유용한 주의 메커니즘을 제공할 수 있습니다; (3) 다른 질문에 따라 답변을 추론하기 위해 필요한 프레임 수가 다릅니다. 이러한 관찰을 바탕으로, 우리는 비디오 QA를 위한 움직임-외관 공동 기억 네트워크를 제안합니다. 우리의 네트워크는 동적 기억 네트워크(DMN)의 개념을 기반으로 하며, 비디오 QA를 위한 새로운 메커니즘을 도입합니다. 구체적으로, 세 가지 주요 측면이 있습니다: (1) 움직임과 외관에서 얻은 신호를 활용하여 주의력을 생성하는 공동 기억 주의 메커니즘; (2) 다중 수준의 문맥적 사실을 생성하기 위한 시간적 컨벌루션-컨벌루션 해제 네트워크; (3) 다양한 질문에 대해 동적으로 시간적 표현을 구성하기 위한 동적 사실 앙상블 방법. 우리는 TGIF-QA 데이터셋에서 우리의 방법을 평가하였으며, 결과는 TGIF-QA의 모든 네 가지 작업에서 현저히 최신 연구보다 우수한 성능을 보였습니다.