HyperAIHyperAI

Command Palette

Search for a command to run...

Kontrastive Feinabstimmung: Eine kleine Hilfe, um Masked Autoencoder zu vergessen

Johannes Lehner Benedikt Alkin Andreas Fürst Elisabeth Rumetshofer Lukas Miklautz Sepp Hochreiter

Zusammenfassung

Maskierte Bildmodellierung (Masked Image Modeling, MIM)-Methoden, wie Masked Autoencoders (MAE), lernen effizient eine reichhaltige Darstellung der Eingabedaten. Um jedoch für nachgeschaltete Aufgaben anpassbar zu sein, benötigen sie eine ausreichende Menge an gelabelten Daten, da ihre reichhaltigen Merkmale nicht nur Objekte, sondern auch weniger relevante Hintergrundinformationen des Bildes kodieren. Im Gegensatz dazu konzentrieren sich Instance Discrimination (ID)-Methoden auf Objekte. In dieser Arbeit untersuchen wir, wie die Effizienz und Skalierbarkeit von MIM mit der Fähigkeit von ID kombiniert werden kann, klassifikative Aufgaben in Abwesenheit großer Mengen gelabelter Daten zu bewältigen. Dazu stellen wir Masked Autoencoder Contrastive Tuning (MAE-CT) vor, einen sequenziellen Ansatz, der die implizite Clusterbildung durch die Nearest Neighbor Contrastive Learning (NNCLR)-Zielfunktion nutzt, um in den obersten Schichten eines vortrainierten MAE eine Abstraktion zu induzieren. MAE-CT passt die reichhaltigen Merkmale so an, dass sie semantische Cluster von Objekten bilden, ohne dabei jegliche Labels zu verwenden. Besonders hervorzuheben ist, dass MAE-CT auf handgefertigte Datenaugmentierungen verzichtet und häufig bereits mit minimalen Augmentierungen (Crop & Flip) seine besten Leistungen erzielt. Zudem ist MAE-CT rechenzeit-effizient, da sie im Vergleich zur Neutrainierung von MAE lediglich einen Overhead von maximal 10 % erfordert. Auf großen und riesigen Vision Transformer (ViT)-Modellen übertrifft MAE-CT bisherige selbstüberwachte Methoden, die auf ImageNet trainiert wurden, hinsichtlich der Linear Probing-, k-NN- und Low-Shot-Klassifikationsgenauigkeit sowie der Genauigkeit bei unsupervisierter Clusterung. Mit dem ViT-H/16-Modell erreicht MAE-CT eine neue state-of-the-art-Leistung im Linear Probing mit 82,2 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp