16일 전
DINOv2: 감독 없이 강건한 시각적 특징 학습하기
Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski

초록
최근 대량의 데이터에 대한 모델 사전 훈련을 위한 자연어 처리 분야의 돌파구는 컴퓨터 비전 분야에서도 유사한 기초 모델의 개발을 가능하게 하였다. 이러한 모델들은 이미지를 어떤 시스템에 사용할 때 크게 간소화할 수 있으며, 특별한 미세조정(finetuning) 없이도 다양한 이미지 분포와 작업에 적용 가능한 보편적인 시각적 특징(모든 목적에 사용 가능한 특징)을 생성할 수 있다. 본 연구는 기존의 사전 훈련 방법, 특히 자기지도 학습(self-supervised learning) 방법이 충분히 정제된 다양한 출처의 데이터를 기반으로 훈련된다면 이러한 특징을 생성할 수 있음을 보여준다. 우리는 기존 접근 방식을 재검토하고 다양한 기술을 결합하여 데이터 양과 모델 규모 측면에서 사전 훈련을 확장한다. 대부분의 기술적 기여는 대규모 훈련 시의 속도 향상과 안정성 확보에 초점을 맞추고 있다. 데이터 측면에서는 기존 자기지도 학습 문헌에서 흔히 사용되는 정제되지 않은 데이터 대신, 전용으로 설계되고 다양하며 정제된 이미지 데이터셋을 자동으로 구축하는 파이프라인을 제안한다. 모델 측면에서는 10억 파라미터 규모의 ViT 모델(Dosovitskiy 등, 2020)을 훈련한 후, 이를 다양한 크기의 소형 모델로 압축(distill)하여, 이미지 및 픽셀 수준에서 기존에 제공되는 최고의 보편적 특징인 OpenCLIP(Ilharco 등, 2021)를 대부분의 벤치마크에서 능가하는 성능을 달성한다.