SimMIM: Ein einfaches Framework für maskiertes Bildmodellieren

Diese Arbeit präsentiert SimMIM, einen einfachen Rahmen für die maskebasierte Bildmodellierung. Wir vereinfachen kürzlich vorgeschlagene Ansätze, indem wir auf spezielle Gestaltungen wie blockweise Maskierung oder Tokenisierung mittels diskreter VAE oder Clustering verzichten. Um zu untersuchen, welche Faktoren die maskebasierte Bildmodellierung dazu befähigen, gute Repräsentationen zu lernen, untersuchen wir systematisch die zentralen Komponenten unseres Rahmens und stellen fest, dass einfache Gestaltungen jeder einzelnen Komponente eine äußerst starke Leistung im Bereich der Repräsentationslernung erzielen: 1) Die zufällige Maskierung des Eingabebildes mit einer moderat großen maskierten Patch-Größe (z. B. 32) bildet eine anspruchsvolle Vortextaufgabe; 2) die Vorhersage der Rohpixelwerte im RGB-Raum mittels direkter Regression erzielt eine Leistung, die der von Ansätzen mit Patch-Klassifikation und komplexen Architekturen nicht nachsteht; 3) der Vorhersagekopf kann so einfach wie eine lineare Schicht ausfallen, ohne dass die Leistung darunter leidet. Mit ViT-B erreicht unsere Methode bei einer Vortrainings- und Feintuning-Prüfung auf ImageNet-1K eine Top-1-Accuracy von 83,8 %, wodurch die bisher beste Methode um +0,6 % übertroffen wird. Bei Anwendung auf ein größeres Modell mit etwa 650 Millionen Parametern, SwinV2-H, erreicht sie eine Top-1-Accuracy von 87,1 % auf ImageNet-1K unter Verwendung lediglich von ImageNet-1K-Daten. Zudem nutzen wir diesen Ansatz, um die Trainingseffizienz eines 3-Billionen-Parameter-Modells (SwinV2-G) zu verbessern: Mit nur 1/40 der Datenmenge im Vergleich zu früheren Praktiken erreichen wir den Stand der Technik auf vier repräsentativen visuellen Benchmarks. Der Quellcode und die Modelle werden öffentlich unter https://github.com/microsoft/SimMIM bereitgestellt.