
초록
비디오 이해는 전반적인 콘텐츠를 인지하고 그 내부의 상호관계(예: 인과성, 움직임, 공간-시간 대응 등)를 모델링하는 데 의존한다. 이러한 상호작용을 학습하기 위해, VQ-VAE를 통해 디지털화된 비디오 토큰에 대해 마스크-다음-예측(pre-training) 작업을 적용한다. 언어와 달리 텍스트 토큰은 비교적 독립적인 반면, 인접한 비디오 토큰은 일반적으로 강한 상관관계를 가진다(예: 연속된 프레임은 보통 매우 유사하다). 따라서 개별 토큰을 균일하게 마스킹하는 방식은 유용한 표현을 학습하기에 너무 단순한 과제가 되어버린다. 이 문제를 해결하기 위해, 공간적 및 시간적 영역에서 인접한 비디오 토큰을 블록 단위로 마스킹하는 전략을 제안한다. 또한, 동일한 비디오에서 샘플링된 비디오 클립인지 여부를 예측함으로써 전반적인 콘텐츠를 더욱 효과적으로 포착하기 위해, 증강 기반 없이 대조 학습(contrastive learning)을 추가한다. 본 연구에서는 정제되지 않은 비디오 데이터를 기반으로 모델을 사전 학습하고, 다양한 비디오 이해 데이터셋(SV2, Diving48 등)에서 최신 기준(SOTA) 성능을 달성함을 보여준다. 마지막으로, 모델의 확장성과 사전 학습 방법 설계에 대한 체계적인 분석을 제공한다. 관련 코드는 https://github.com/airsplay/vimpac 에 공개되어 있다.