작은 기초 모델의 사전 훈련을 위한 비대칭 마스킹 디스틸레이션

자기지도 기반의 기초 모델은 마스킹된 자동부호화(masked autoencoding) 전훈련 전략 덕분에 컴퓨터 비전 분야에서 큰 잠재력을 보여주고 있다. 이러한 기초 모델의 성능에 영향을 주는 주요 요인 중 하나는 규모(scale)이다. 그러나 대규모 기초 모델은 종종 높은 계산 비용을 수반한다. 본 논문은 하류 작업에 효율적으로 적응할 수 있는 비교적 소규모 비전 트랜스포머(Vision Transformer, ViT) 모델의 전훈련에 초점을 맞춘다. 구체적으로, 모델 압축에서의 지식 증류(knowledge distillation)의 아이디어를 차용하여, 자동부호화를 활용한 비교적 소규모 모델의 전훈련을 위한 새로운 비대칭 마스킹 증류(Asymmetric Masked Distillation, AMD) 프레임워크를 제안한다. AMD의 핵심은 비대칭 마스킹 전략을 설계하는 것이다. 여기서 교사 모델은 낮은 마스킹 비율을 사용하여 더 많은 맥락 정보를 볼 수 있도록 하며, 학생 모델은 여전히 높은 마스킹 비율을 유지한다. 이를 통해 교사 인코더와 학생 인코더 간의 맞춤형 다층 특징 정렬을 설계하여, 학생 모델의 MAE 전훈련을 정규화한다. AMD의 효과성과 유연성을 입증하기 위해, ImageMAE와 VideoMAE 모두에 적용하여 비교적 소규모 ViT 모델의 전훈련을 수행하였다. ViT-B 모델을 사용하여 IN1K에서 AMD는 84.6%의 분류 정확도를 달성하였다. 또한 Something-in-Something V2 데이터셋에서 ViT-B 모델을 사용해 73.3%의 분류 정확도를 기록하며, VideoMAE의 원래 ViT-B 모델 대비 3.7% 향상된 성능을 보였다. 또한 AMD로 전훈련된 모델을 하류 작업에 전이 적용한 결과, 원래의 마스킹 자동부호화 방식보다 일관되게 성능 향상을 얻었다. 코드 및 모델은 https://github.com/MCG-NJU/AMD 에 공개되어 있다.