MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision Transformers

In diesem Paper stellen wir den Mixed and Masked Autoencoder (MixMAE) vor, eine einfache, jedoch effiziente Vortrainingsmethode, die für verschiedene hierarchische Vision Transformers anwendbar ist. Bestehende Methoden des maskierten Bildmodellierens (Masked Image Modeling, MIM) für hierarchische Vision Transformers ersetzen eine zufällige Teilmenge der Eingabetoken durch ein spezielles [MASK]-Symbol und zielen darauf ab, die ursprünglichen Bildtoken aus dem verfälschten Bild wiederherzustellen. Wir stellen jedoch fest, dass die Verwendung des [MASK]-Symbols die Trainingsgeschwindigkeit erheblich verlangsamt und eine Inkonsistenz zwischen Vortrainings- und Feintuning-Phase verursacht, insbesondere aufgrund eines hohen Maskierungsanteils (z. B. 60 % bei SimMIM). Andererseits verwendet MAE gar keine [MASK]-Tokens im Encoder, ist jedoch nicht direkt auf hierarchische Vision Transformers anwendbar. Um dieses Problem zu lösen und das Vortrainingsverfahren hierarchischer Modelle zu beschleunigen, ersetzen wir die maskierten Token eines Bildes durch sichtbare Token eines anderen Bildes, wodurch ein gemischtes Bild entsteht. Anschließend führen wir eine doppelte Rekonstruktion durch, um die beiden ursprünglichen Bilder aus dem gemischten Eingabebild wiederherzustellen, was die Effizienz erheblich steigert. Obwohl MixMAE auf verschiedene hierarchische Transformer anwendbar ist, untersuchen wir in diesem Beitrag insbesondere die Verwendung des Swin Transformers mit großem Fenster und eine Skalierung bis hin zu sehr großen Modellgrößen (bis zu 600 M Parameter). Empirische Ergebnisse zeigen, dass MixMAE hochwertige visuelle Repräsentationen effizient lernen kann. Insbesondere erreicht MixMAE mit Swin-B/W14 eine Top-1-Accuracy von 85,1 % auf ImageNet-1K nach 600 Vortrainings-Epochen. Zudem zeigen die Transferleistungen auf sechs weiteren Datensätzen, dass MixMAE gegenüber früheren gängigen MIM-Methoden ein besseres Verhältnis zwischen FLOPs und Leistung bietet. Der Quellcode ist unter https://github.com/Sense-X/MixMIM verfügbar.