단지 물어보기: 수백만 개의 음성 해설 영상을 통해 질문에 답하는 법을 배우기

최근 시각 질문 응답(Visual Question Answering, VideoQA)을 위한 방법들은 대규모의 레이블링된 데이터셋에 의존하고 있다. 그러나 영상에 대한 질문과 답변을 수동으로 레이블링하는 것은 번거롭고 비용이 많이 들며, 확장성에 한계가 있다. 본 연구에서는 수동 레이블링을 피하고 자동화된 다중모달 감독(automatic cross-modal supervision)을 활용하여 대규모의 영상 질의응답 학습 데이터셋을 생성하는 방법을 제안한다. 우리는 텍스트 데이터로 훈련된 질문 생성 트랜스포머(Transformer)를 활용하여 영상의 자막(transcribed video narrations)에서 질문-답변 쌍을 자동 생성한다. 자막이 제공된 영상들을 기반으로, 우리는 총 6900만 개의 영상-질문-답변 삼중항(video-question-answer triplets)을 포함하는 HowToVQA69M 데이터셋을 자동으로 생성한다. 이 데이터셋에서 다양한 답변의 오픈 백과(open vocabulary) 문제를 다루기 위해, 영상-질문 다중모달 트랜스포머와 답변 트랜스포머 사이의 대조 손실(contrastive loss) 기반의 훈련 절차를 제안한다. 또한, 제로샷(Zero-shot) VideoQA 작업을 도입하여 희귀한 답변에 대해서도 뛰어난 성능을 보임을 입증한다. 더불어, MSRVTT-QA, MSVD-QA, ActivityNet-QA, How2QA 등에서 기존 최고 수준의 방법들을 상당히 초월함을 실험적으로 확인하였다. 마지막으로, 상세한 평가를 위해 언어 편향이 감소하고 고품질의 중복 수동 레이블링이 제공된 새로운 VideoQA 데이터셋인 iVQA를 제안한다. 본 연구의 코드, 데이터셋, 및 훈련된 모델은 https://antoyang.github.io/just-ask.html 에서 공개되어 있다.