VideoMAE V2: Dual Masking을 활용한 비디오 마스킹 오토인코더의 확장

규모는 다양한 하위 스트림 작업에 잘 일반화할 수 있는 강력한 기반 모델을 구축하는 주요 요소입니다. 그러나 수십억 개의 매개변수를 가진 비디오 기반 모델을 훈련시키는 것은 여전히 어려운 과제입니다. 본 논문은 비디오 마스킹 오토인코더(VideoMAE)가 규모 확장이 가능하고 일반적인 자기 감독 사전 학습기로, 비디오 기반 모델을 구축하는 데 적합함을 보여줍니다. 특히, 효율적인 사전 학습을 위해 듀얼 마스킹 전략을 제시합니다. 이 전략은 인코더가 비디오 토큰의 일부 집합에서 작동하고, 디코더가 다른 부분 집합에서 처리하도록 설계되었습니다. 인코더에서 높은 마스킹 비율로 인해 VideoMAE가 매우 효율적이지만, 디코더를 마스킹하면 전체 계산 비용을 더욱 줄일 수 있습니다. 이를 통해 수십억 단위의 비디오 모델의 효율적인 사전 학습이 가능해집니다.또한, 우리는 다양하고 다중 출처의 라벨이 없는 데이터셋에서 초기 사전 학습을 수행하고, 그 다음에는 혼합된 라벨이 있는 데이터셋에서 후속 사전 학습(post-pre-training)을 수행하는 점진적 훈련 패러다임을 사용했습니다. 결국, 우리는 Kinetics(K400에서는 90.0%, K600에서는 89.9%)와 Something-Something(V1에서는 68.7%, V2에서는 77.0%) 데이터셋에서 새로운 최고 성능(SOTA)을 달성한 수십억 개의 매개변수를 가진 비디오 ViT 모델을 성공적으로 훈련시켰습니다. 또한, 다양한 하위 스트림 작업에서 사전 학습된 비디오 ViT 모델들의 효과를 광범위하게 검증하여 일반적인 비디오 표현 학습기로서의 유용성을 입증하였습니다.코드와 모델은 \url{https://github.com/OpenGVLab/VideoMAEv2}에서 이용할 수 있습니다.