MIM-Refiner: Ein Kontrastives Lernen aus Zwischendarstellungen, die vorab trainiert wurden

Wir stellen MIM (Masked Image Modeling)-Refiner vor, eine Verbesserung des kontrastiven Lernens für vortrainierte MIM-Modelle. Der MIM-Refiner basiert auf der Erkenntnis, dass starke Repräsentationen innerhalb von MIM-Modellen in der Regel in den Zwischenschichten liegen. Demgemäß nutzt der MIM-Refiner mehrere kontrastive Heads, die mit verschiedenen Zwischenschichten verbunden sind. In jedem Head konstruiert ein modifiziertes Next-Neighbor-Ziel semantische Cluster, die semantische Informationen erfassen und die Leistung bei nachgelagerten Aufgaben verbessern, einschließlich Standard- und Feinabstimmungsszenarien.Der Verfeinerungsprozess ist kurz und einfach – dennoch hoch effektiv. Innerhalb weniger Epochen verbessern wir die Features von MIM-Modellen von mäßig bis hin zu den besten aktuellen, standardisierten Features. Die Verfeinerung eines ViT-H, das mit data2vec 2.0 auf ImageNet-1K vortrainiert wurde, stellt einen neuen Stand der Technik im linearen Probing (84,7 %) und bei Klassifikation mit wenigen Beispielen dar, unter Modellen, die auf ImageNet-1K vortrainiert wurden. Der MIM-Refiner kombiniert die Vorteile von MIM- und ID-Zielen effizient und erzielt vergleichsweise günstige Ergebnisse gegenüber früheren Stand der Technik SSL-Modellen in einer Vielzahl von Benchmarks wie Klassifikation mit wenigen Beispielen, langschwanz-Klassifikation, Clustering und semantischem Segmentierung.