17일 전
ViC-MAE: 대조형 마스킹 오토인코더를 이용한 이미지 및 영상에서의 자기지도 학습 기반 표현 학습
Jefferson Hernandez, Ruben Villegas, Vicente Ordonez

초록
우리는 마스킹된 오토인코더(Masked AutoEncoders, MAE)와 대조 학습(contrastive learning)을 결합한 모델인 ViC-MAE를 제안한다. ViC-MAE는 MAE 재구성 손실 하에서 학습된 국소 표현들을 풀링하여 얻은 전역 특징을 사용하며, 이 특징은 이미지와 영상 프레임 간의 대조적 목적함수를 통해 활용된다. 제안된 방법을 통해 학습된 시각적 표현이 영상 및 이미지 분류 작업에 잘 일반화됨을 보여준다. 특히, 최근 제안된 OmniMAE와 동일한 데이터에서 학습했을 때 ViC-MAE는 ImageNet-1k에서 86%의 상위-1 정확도를 달성하며 +1.3%p의 절대적 성능 향상을 기록하였고, 추가 데이터에서 학습할 경우 87.1% (+2.4%p 절대적 향상)의 성능을 보였다. 한편, 도전적인 Something-something-v2 영상 벤치마크에서 ViC-MAE는 75.9%의 상위-1 정확도를 기록하여 대부분의 다른 방법들을 상회한다. 다양한 데이터셋에서 영상과 이미지를 결합하여 학습할 경우, 본 연구의 방법은 영상 분류 및 이미지 분류 벤치마크 간에 균형 잡힌 전이 학습 성능을 유지하며, 가장 우수한 지도 학습 방법에 비해 오직 근소한 차이로 뒤지며 뛰어난 성능을 보인다.