Verbesserung der visuellen Repräsentationslernung durch perceptuelles Verständnis

Wir präsentieren eine Erweiterung von Masked Autoencoders (MAE), die die von dem Modell erlernten Darstellungen verbessert, indem sie explizit die Entwicklung höherer, szenenbezogener Merkmale fördert. Dies erreichen wir durch: (i) die Einführung eines Perzeptionsähnlichkeitsbegriffs zwischen generierten und echten Bildern sowie (ii) die Integration mehrerer Techniken aus dem Bereich des adversarialen Trainings, darunter Multi-Scale-Training und adaptive Diskriminatoren-Augmentation. Die Kombination dieser Ansätze führt nicht nur zu einer verbesserten Pixel-Rekonstruktion, sondern auch zu Darstellungen, die anscheinend feinere, höherstufige Details innerhalb der Bilder erfassen. Konsequenterweise zeigen wir, dass unsere Methode, Perceptual MAE, bei nachgeschalteten Aufgaben eine bessere Leistung erzielt und damit frühere Ansätze übertrifft. Wir erreichen eine Top-1-Accuracy von 78,1 % bei linearer Probing auf ImageNet-1K und bis zu 88,1 % bei Fine-Tuning, mit vergleichbaren Ergebnissen für andere nachgeschaltete Aufgaben – alles ohne Verwendung zusätzlicher vortrainierter Modelle oder Daten.