DINOv2: Lernen robuster visueller Merkmale ohne Überwachung

Die jüngsten Durchbrüche in der Verarbeitung natürlicher Sprache durch Modellvortrainings auf großen Datenmengen haben den Weg für vergleichbare Grundlagenmodelle im Bereich des maschinellen Sehens geebnet. Solche Modelle könnten die Nutzung von Bildern in beliebigen Systemen erheblich vereinfachen, indem sie universelle visuelle Merkmale erzeugen – also Merkmale, die unabhängig von der Bildverteilung und der Aufgabe ohne Nachtrainieren funktionieren. Diese Arbeit zeigt, dass bestehende Vortrainingsmethoden, insbesondere selbstüberwachte Methoden, derartige Merkmale liefern können, wenn sie auf ausreichend sorgfältig zusammengestellten Daten aus vielfältigen Quellen trainiert werden. Wir überprüfen bestehende Ansätze und kombinieren verschiedene Techniken, um unser Vortraining hinsichtlich Datenumfang und Modellgröße zu skalieren. Die überwiegende Zahl der technischen Beiträge zielt darauf ab, das Training in großem Maßstab zu beschleunigen und zu stabilisieren. Hinsichtlich der Daten schlagen wir eine automatisierte Pipeline vor, um eine spezifische, vielfältige und sorgfältig zusammengestellte Bild-Datenbank aufzubauen – im Gegensatz zu den typischerweise in der selbstüberwachten Literatur verwendeten unstrukturierten Datensätzen. Hinsichtlich der Modelle trainieren wir ein ViT-Modell (Dosovitskiy et al., 2020) mit 1 Milliarde Parametern und reduzieren es durch Distillation in eine Reihe kleinerer Modelle, die die derzeit besten verfügbaren universellen Merkmale, OpenCLIP (Ilharco et al., 2021), auf den meisten Benchmarks auf Bild- und Pixel-Ebene übertreffen.