
초록
최근 몇 년간 이미지 기반의 질문-답변(QA) 작업에 대한 관심이 증가하고 있습니다. 그러나 데이터 제한으로 인해 비디오 기반의 QA 작업에 대한 연구는 상대적으로 적었습니다. 본 논문에서는 6개의 인기 있는 TV 프로그램을 기반으로 하는 대규모 비디오 QA 데이터셋인 TVQA를 소개합니다. TVQA는 21,793개의 클립에서 추출된 152,545개의 QA 쌍으로 구성되어 있으며, 약 460시간에 걸친 비디오를 포함하고 있습니다. 질문들은 조합적(compositional) 성격을 가지고 설계되었으며, 시스템이 클립 내에서 관련 순간을 공동으로 위치 파악(localize), 자막 기반 대화를 이해(comprehend subtitle-based dialogue), 그리고 관련 시각적 개념을 인식(recognize relevant visual concepts)해야 합니다. 우리는 이 새로운 데이터셋에 대한 분석과 함께 여러 베이스라인 및 TVQA 작업을 위한 다중 스트림(multi-stream) 엔드투엔드(end-to-end) 학습 가능한 신경망 프레임워크를 제공합니다. 데이터셋은 http://tvqa.cs.unc.edu 에서 공개적으로 이용 가능합니다.