SimMIM: 마스크 이미지 모델링을 위한 간단한 프레임워크

이 논문은 마스킹된 이미지 모델링을 위한 간단한 프레임워크인 SimMIM을 제안한다. 우리는 최근 제안된 관련 기법들에서 블록 단위 마스킹, 이산 VAE 또는 클러스터링을 통한 토큰화와 같은 특수한 설계를 제거함으로써 기존 접근 방식을 단순화하였다. 마스킹된 이미지 모델링 작업이 우수한 표현을 학습할 수 있는 이유를 탐구하기 위해, 본 프레임워크의 주요 구성 요소들을 체계적으로 분석하였으며, 각 구성 요소의 단순한 설계가 매우 강력한 표현 학습 성능을 보여주는 것으로 확인하였다. 구체적으로, 1) 적당히 큰 마스킹 패치 크기(예: 32)를 갖는 입력 이미지의 무작위 마스킹은 강력한 사전 텍스트 작업을 제공하며, 2) 복잡한 설계를 가진 패치 분류 방식과 비교하여, 직접 회귀를 통해 RGB 값의 원본 픽셀을 예측하는 방식이 성능 면에서 뒤지지 않으며, 3) 예측 헤드는 선형 레이어 수준으로도 충분하며, 더 무거운 구조보다 성능이 떨어지지 않는다. ViT-B 모델을 사용한 결과, ImageNet-1K 데이터셋에서 사전 훈련을 수행한 후, 83.8%의 top-1 정확도를 달성하여 기존 최고 성능 방법보다 +0.6% 향상시켰다. 더 큰 모델인 약 6.5억 파라미터를 가진 SwinV2-H를 적용한 경우, ImageNet-1K 데이터만을 사용하여도 87.1%의 top-1 정확도를 기록하였다. 또한 이 접근법을 활용하여 30억 파라미터 규모의 모델(SwinV2-G)을 훈련시켰으며, 이전 연구 대비 40배 적은 데이터로도 네 가지 대표적인 비전 벤치마크에서 최고 성능을 달성하였다. 코드와 모델은 공개적으로 https://github.com/microsoft/SimMIM 에서 제공될 예정이다.