vor 16 Tagen

DINOv2: Lernen robuster visueller Merkmale ohne Überwachung

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski

Details der Forschungsarbeit anzeigen

DINOv2: Lernen robuster visueller Merkmale ohne Überwachung

Abstract

Die jüngsten Durchbrüche in der Verarbeitung natürlicher Sprache durch Modellvortrainings auf großen Datenmengen haben den Weg für vergleichbare Grundlagenmodelle im Bereich des maschinellen Sehens geebnet. Solche Modelle könnten die Nutzung von Bildern in beliebigen Systemen erheblich vereinfachen, indem sie universelle visuelle Merkmale erzeugen – also Merkmale, die unabhängig von der Bildverteilung und der Aufgabe ohne Nachtrainieren funktionieren. Diese Arbeit zeigt, dass bestehende Vortrainingsmethoden, insbesondere selbstüberwachte Methoden, derartige Merkmale liefern können, wenn sie auf ausreichend sorgfältig zusammengestellten Daten aus vielfältigen Quellen trainiert werden. Wir überprüfen bestehende Ansätze und kombinieren verschiedene Techniken, um unser Vortraining hinsichtlich Datenumfang und Modellgröße zu skalieren. Die überwiegende Zahl der technischen Beiträge zielt darauf ab, das Training in großem Maßstab zu beschleunigen und zu stabilisieren. Hinsichtlich der Daten schlagen wir eine automatisierte Pipeline vor, um eine spezifische, vielfältige und sorgfältig zusammengestellte Bild-Datenbank aufzubauen – im Gegensatz zu den typischerweise in der selbstüberwachten Literatur verwendeten unstrukturierten Datensätzen. Hinsichtlich der Modelle trainieren wir ein ViT-Modell (Dosovitskiy et al., 2020) mit 1 Milliarde Parametern und reduzieren es durch Distillation in eine Reihe kleinerer Modelle, die die derzeit besten verfügbaren universellen Merkmale, OpenCLIP (Ilharco et al., 2021), auf den meisten Benchmarks auf Bild- und Pixel-Ebene übertreffen.