2달 전
자기 지도 학습 비전 트랜스포머의 신규 특성
Mathilde Caron; Hugo Touvron; Ishan Misra; Hervé Jégou; Julien Mairal; Piotr Bojanowski; Armand Joulin

초록
본 논문에서는 자기 지도 학습(self-supervised learning)이 컨볼루션 네트워크(convnets)와 비교하여 비전 트랜스포머(Vision Transformer, ViT)에 어떤 새로운 특성을 제공하는지 의문을 제기합니다. 이 아키텍처에 자기 지도 방법을 적용하는 것이 특히 잘 작동한다는 사실 외에도, 다음과 같은 관찰 결과를 얻었습니다. 첫째, 자기 지도 ViT의 특징은 이미지의 의미 분할(semantic segmentation)에 대한 명시적인 정보를 포함하고 있으며, 이는 감독된 ViT나 컨볼루션 네트워크에서 그렇게 명확하게 나타나지 않습니다. 둘째, 이러한 특징들은 또한 우수한 k-최근접 이웃(k-NN) 분류기를 형성하며, 작은 ViT 모델로 ImageNet에서 78.3%의 상위 1등급 정확도를 달성하였습니다.우리의 연구는 또한 모멘텀 인코더(momentum encoder), 다중 크롭 훈련(multi-crop training), 그리고 ViT에서 작은 패치(patch) 사용의 중요성을 강조합니다. 이러한 발견들을 바탕으로 간단한 자기 지도 방법인 DINO를 구현하였으며, 이를 라벨이 없는 자기 증강(self-distillation) 형태로 해석하였습니다. 우리는 DINO와 ViT 사이의 시너지를 보여주어, ViT-Base 모델에서 ImageNet의 선형 평가(linear evaluation)에서 80.1%의 상위 1등급 정확도를 달성하였습니다.