2일 전

DINOv3

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
DINOv3
초록

자기지도 학습은 수동적인 데이터 주석 작업이 필요 없도록 함으로써, 모델이 대규모 데이터셋과 더 큰 아키텍처로 원활하게 확장될 수 있는 가능성을 지닌다. 특정 작업이나 도메인에 맞춰 설계되지 않은 이 학습 패러다임은 하나의 알고리즘으로 자연 이미지부터 항공 이미지에 이르기까지 다양한 소스의 시각 정보를 학습할 수 있는 잠재력을 지닌다. 본 기술 보고서는 간단하면서도 효과적인 전략을 활용함으로써 이 비전을 실현하기 위한 중요한 도약인 DINOv3을 소개한다. 먼저, 신중한 데이터 준비, 설계 및 최적화를 통해 데이터셋과 모델 크기의 확장 효과를 극대화한다. 두 번째로, 장기간 학습 과정에서 밀도 높은 특징 맵의 품질 저하라는 기존에 알려졌으나 해결되지 않은 문제를 효과적으로 해결하는 새로운 방법인 '그램 앵커링(Gram anchoring)'을 제안한다. 마지막으로, 해상도, 모델 크기, 텍스트와의 정렬성에 대한 모델의 유연성을 더욱 높이기 위해 사후 전략을 적용한다. 그 결과, 미세 조정 없이도 다양한 설정에서 특화된 최첨단 기술을 능가하는 유연한 시각 기반 모델을 제시한다. DINOv3는 고품질의 밀도 높은 특징을 생성하여 다양한 시각 작업에서 뛰어난 성능을 달성하며, 이전의 자기지도 및 약한 지도 학습 기반 모델들을 크게 능가한다. 또한, 다양한 자원 제약 조건과 배포 환경에 대응할 수 있는 확장 가능한 솔루션을 제공함으로써, 다양한 작업과 데이터에 걸쳐 최첨단 기술을 발전시키기 위해 설계된 DINOv3 시리즈의 시각 모델을 공개한다.

DINOv3 | 최신 연구 논문 | HyperAI초신경