Kontrastive Feinabstimmung: Eine kleine Hilfe, um Masked Autoencoder zu vergessen

Maskierte Bildmodellierung (Masked Image Modeling, MIM)-Methoden, wie Masked Autoencoders (MAE), lernen effizient eine reichhaltige Darstellung der Eingabedaten. Um jedoch für nachgeschaltete Aufgaben anpassbar zu sein, benötigen sie eine ausreichende Menge an gelabelten Daten, da ihre reichhaltigen Merkmale nicht nur Objekte, sondern auch weniger relevante Hintergrundinformationen des Bildes kodieren. Im Gegensatz dazu konzentrieren sich Instance Discrimination (ID)-Methoden auf Objekte. In dieser Arbeit untersuchen wir, wie die Effizienz und Skalierbarkeit von MIM mit der Fähigkeit von ID kombiniert werden kann, klassifikative Aufgaben in Abwesenheit großer Mengen gelabelter Daten zu bewältigen. Dazu stellen wir Masked Autoencoder Contrastive Tuning (MAE-CT) vor, einen sequenziellen Ansatz, der die implizite Clusterbildung durch die Nearest Neighbor Contrastive Learning (NNCLR)-Zielfunktion nutzt, um in den obersten Schichten eines vortrainierten MAE eine Abstraktion zu induzieren. MAE-CT passt die reichhaltigen Merkmale so an, dass sie semantische Cluster von Objekten bilden, ohne dabei jegliche Labels zu verwenden. Besonders hervorzuheben ist, dass MAE-CT auf handgefertigte Datenaugmentierungen verzichtet und häufig bereits mit minimalen Augmentierungen (Crop & Flip) seine besten Leistungen erzielt. Zudem ist MAE-CT rechenzeit-effizient, da sie im Vergleich zur Neutrainierung von MAE lediglich einen Overhead von maximal 10 % erfordert. Auf großen und riesigen Vision Transformer (ViT)-Modellen übertrifft MAE-CT bisherige selbstüberwachte Methoden, die auf ImageNet trainiert wurden, hinsichtlich der Linear Probing-, k-NN- und Low-Shot-Klassifikationsgenauigkeit sowie der Genauigkeit bei unsupervisierter Clusterung. Mit dem ViT-H/16-Modell erreicht MAE-CT eine neue state-of-the-art-Leistung im Linear Probing mit 82,2 %.