한 달 전

ActivityNet-QA: 질문 응답을 통한 복잡한 웹 비디오 이해를 위한 데이터셋

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao
ActivityNet-QA: 질문 응답을 통한 복잡한 웹 비디오 이해를 위한 데이터셋
초록

최근 언어와 시각 모델링 분야의 발전이 이미지 질문 응답에 성공적으로 적용되었습니다. 이 연구 방향을 비디오 질문 응답(VideoQA) 분야로 확장하는 것은 중요하면서도 자연스러운 일입니다. 이미지 분야에서는 대규모 완전 주석화된 벤치마크 데이터셋이 존재하지만, VideoQA 데이터셋은 소규모이며 자동 생성되는 등의 제한이 있습니다. 이러한 제한으로 인해 실용성에 한계가 있습니다. 본 논문에서는 완전 주석화되고 대규모인 VideoQA 데이터셋인 ActivityNet-QA를 소개합니다. 이 데이터셋은 인기 있는 ActivityNet 데이터셋에서 유래된 5,800개의 복잡한 웹 비디오에 대한 58,000개의 질문-응답 쌍으로 구성되어 있습니다. 우리는 ActivityNet-QA 데이터셋에 대한 통계적 분석을 제시하고, 기존 VideoQA 베이스라인들을 비교하여 광범위한 실험을 수행했습니다. 또한, 특히 장시간 비디오의 VideoQA 성능 향상을 위해 다양한 비디오 표현 전략을 탐구하였습니다. 데이터셋은 https://github.com/MILVLG/activitynet-qa에서 이용 가능합니다.