3달 전

엔드투엔드 생성형 사전학습을 통한 다중모달 영상 캡션 생성

Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid
엔드투엔드 생성형 사전학습을 통한 다중모달 영상 캡션 생성
초록

최근의 비디오 및 언어 사전 학습 프레임워크는 문장을 생성하는 능력이 부족하다. 본 연구에서는 레이블이 없는 비디오로부터 학습할 수 있는 새로운 사전 학습 프레임워크인 다모달 비디오 생성형 사전 학습(Multimodal Video Generative Pretraining, MV-GPT)을 제안한다. 이 프레임워크는 다모달 비디오 캡셔닝과 같은 생성 작업에 효과적으로 활용될 수 있다. 최근의 비디오-언어 사전 학습 프레임워크와 달리, 본 연구의 프레임워크는 다모달 비디오 인코더와 문장 디코더를 동시에 학습한다. 레이블이 없는 비디오에 캡셔닝이 부족한 문제를 해결하기 위해, 미래의 발화(future utterance)를 추가적인 텍스트 소스로 활용하고, 양방향 생성 목적함수(bidirectional generation objective)를 제안한다. 이 목적함수는 현재의 다모달 컨텍스트로부터 미래의 발화를 생성하는 것과, 미래의 관측값을 바탕으로 현재의 발화를 생성하는 두 가지 방식을 동시에 수행한다. 이러한 목적함수를 통해, 원시 픽셀과 음성 전사 데이터로부터 직접 캡셔닝을 생성할 수 있는 인코더-디코더 모델을 엔드투엔드로 학습할 수 있다. 제안한 모델은 네 가지 표준 벤치마크에서 다모달 비디오 캡셔닝 작업에서 최고 성능을 기록하였으며, 비디오 질의응답(VideoQA), 비디오 검색, 행동 분류 등 다른 비디오 이해 작업에서도 뛰어난 성능을 보였다.