
이 논문은 마스크된 자동에코더를 통한 간단한 비디오-텍스트 사전학습 프레임워크인 SimVTP를 제안한다. 입력 비디오의 공간-시계열 튜브와 입력 텍스트의 단어 토큰을 무작위로 마스킹한 후, 이를 통합된 자동에코더에 입력하여 누락된 픽셀과 단어를 재구성한다. SimVTP는 다음과 같은 특징을 갖는다: 1) 통합된 자동에코더 덕분에, SimVTP는 한 모달리티의 마스킹된 신호를 다른 모달리티의 정보를 활용하여 재구성할 수 있으며, 이는 비디오 튜브와 텍스트 토큰 간의 크로스모달 정렬을 암묵적으로 학습하게 한다. 2) 비디오의 시간적 중복성 덕분에 SimVTP는 높은 비디오 마스킹 비율(예: 90%)을 효과적으로 활용할 수 있으며, 동시에 텍스트의 높은 마스킹 비율(예: 75%)도 필요하다. 이는 BERT의 경우(예: 15%)보다 훨씬 높은 수준이며, 비디오 모달리티의 보조로 인해 텍스트 재구성이 덜 어려워지기 때문에, 유용한 특징 학습을 위해 사전학습 과제를 더 어렵게 만들기 위해 더 높은 마스킹 비율이 필요하기 때문이다. 3) SimVTP에 일반적으로 사용되는 크로스모달 학습 전략인 비디오-텍스트 대조 학습(VTC)과 비디오-텍스트 매칭(VTM)을 추가하면, 전이 성능이 더욱 크게 향상된다. 4) SimVTP는 데이터 효율성이 뛰어나며, WebVid-2M 데이터의 단지 10%만으로 사전학습을 수행해도 MSRVTT에서 놀라운 성능(43.8 R@1)을 달성한다. 이 성능은 CC3M과 WebVid-2M 양쪽 모두를 사용해 사전학습한 최근 최고 성능 방법들보다 훨씬 뛰어난 수준이다. 본 연구에서는 사전학습된 모델을 다양한 하류 작업에 전이 적용하여 우수한 성능을 얻었다. 코드와 모델은 https://github.com/mayuelala/SimVTP 에 공개될 예정이다.