DINOv3

Selbstüberwachtes Lernen verspricht, die Notwendigkeit manueller Datenannotierung zu beseitigen und es Modellen zu ermöglichen, nahtlos auf riesige Datensätze und größere Architekturen zu skalieren. Da dieses Trainingsparadigma nicht auf spezifische Aufgaben oder Domänen zugeschnitten ist, hat es das Potenzial, visuelle Darstellungen aus vielfältigen Quellen – von natürlichen bis zu Luftbildern – mit einem einzigen Algorithmus zu lernen. Dieser technische Bericht stellt DINOv3 vor, einen bedeutenden Meilenstein auf dem Weg, diese Vision zu verwirklichen, indem einfache, aber wirksame Strategien genutzt werden. Erstens nutzen wir die Vorteile einer Skalierung sowohl der Datensätze als auch der Modellgröße durch sorgfältige Datenvorbereitung, Architekturgestaltung und Optimierung. Zweitens führen wir eine neue Methode namens Gram-Ankerung ein, die das bekannte, bisher ungelöste Problem der Degradation dichter Merkmalskarten während langer Trainingsphasen effektiv angeht. Drittens wenden wir nachträgliche Strategien an, die die Flexibilität unserer Modelle hinsichtlich Auflösung, Modellgröße und Text-Alignment weiter verbessern. Als Ergebnis präsentieren wir ein vielseitiges Grundmodell für visuelle Aufgaben, das die spezialisierten State-of-the-Art-Modelle in einer breiten Palette von Szenarien ohne Feintuning übertrifft. DINOv3 erzeugt hochwertige dichte Merkmale, die bei verschiedenen visuellen Aufgaben herausragende Leistung erzielen und die vorherigen selbst- und schwach überwachten Grundmodelle erheblich übertreffen. Zudem veröffentlichen wir die DINOv3-Suite visueller Modelle, die entwickelt wurde, um die aktuelle Forschungsgrenze auf einer Vielzahl von Aufgaben und Datensätzen voranzutreiben, indem skalierbare Lösungen für unterschiedliche Ressourcenbeschränkungen und Einsatzszenarien bereitgestellt werden.