7일 전

Vid2Seq: 밀도 높은 비디오 캡셔닝을 위한 시각 언어 모델의 대규모 사전 학습

Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, Cordelia Schmid
Vid2Seq: 밀도 높은 비디오 캡셔닝을 위한 시각 언어 모델의 대규모 사전 학습
초록

이 연구에서는 대량으로 확보 가능한 서술된 영상(나레이션 영상)을 사전 훈련 데이터로 사용하는 다모달(single-stage) 밀집 이벤트 캡셔닝 모델인 Vid2Seq를 제안한다. Vid2Seq 아키텍처는 언어 모델에 특수한 시간 토큰(time tokens)을 추가하여, 동일한 출력 시퀀스 내에서 이벤트 경계와 텍스트 설명을 원활하게 예측할 수 있도록 한다. 이러한 통합형 모델은 대규모 훈련 데이터를 필요로 하며, 현재 존재하는 주석된 데이터셋에서는 이를 충족시킬 수 없다. 우리는 전사된 음성의 문장 경계를 가상의 이벤트 경계로 재정의하고, 전사된 음성 문장을 가상의 이벤트 캡셔닝으로 활용함으로써, 레이블이 없는 서술된 영상 데이터를 밀집 영상 캡셔닝에 활용할 수 있음을 보여준다. 이를 통해 YT-Temporal-1B 데이터셋으로 사전 훈련된 Vid2Seq 모델은 YouCook2, ViTT, ActivityNet Captions 등 다양한 밀집 영상 캡셔닝 벤치마크에서 최신 기준(SOTA)을 개선하였다. 또한 Vid2Seq는 영상 단락 캡셔닝, 영상 클립 캡셔닝 등의 임무 및 소량 샘플(few-shot) 설정에서도 잘 일반화됨을 확인하였다. 본 연구의 코드는 https://antoyang.github.io/vid2seq.html 에 공개되어 있다.