7일 전

제로샷 비디오 질의응답을 위한 동결된 양방향 언어 모델

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
제로샷 비디오 질의응답을 위한 동결된 양방향 언어 모델
초록

비디오 질의 응답(VideoQA)은 훈련을 위해 다양한 다중 모달 데이터를 필요로 하는 복잡한 과제이다. 그러나 비디오에 대한 질문과 답변을 수동으로 주석화하는 것은 번거롭고, 확장성에 한계가 있다. 이 문제를 해결하기 위해 최근 연구들은 수동 주석이 전혀 필요 없는 제로샷(Zero-shot) 설정을 고려하고 있다. 특히, 웹 규모의 텍스트 데이터로 사전 훈련된 고정된 순차적 언어 모델(autoregressive language model)을 다중 모달 입력에 적응시키는 전략이 주목받고 있다. 반면, 본 연구에서는 고정된 양방향 언어 모델(BiLM)을 기반으로 하여, 제로샷 VideoQA에 대해 더 강력하고 저비용인 대안을 제시한다. 구체적으로, (i) 가벼운 학습 가능한 모듈을 사용해 시각적 입력을 고정된 BiLM에 통합하고, (ii) 웹에서 크롤링한 다중 모달 데이터를 활용해 이러한 모듈을 훈련하며, (iii) 마스크된 언어 모델링(Masked Language Modeling)을 통해 제로샷 VideoQA 추론을 수행한다. 여기서 마스크된 텍스트는 주어진 질문에 대한 답변이 된다. 제안하는 방법인 FrozenBiLM은 LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA, TVQA 등 다양한 데이터셋에서 기존 최고 성능을 크게 상회하며 제로샷 VideoQA 성능을 개선한다. 또한, 소량 학습(Few-shot) 및 완전 감독 학습(Fully-supervised) 환경에서도 경쟁력 있는 성능을 보여준다. 본 연구의 코드와 모델은 공개적으로 https://github.com/antoyang/FrozenBiLM 에서 제공된다.

제로샷 비디오 질의응답을 위한 동결된 양방향 언어 모델 | 최신 연구 논문 | HyperAI초신경