iBOT: Bild-BERT-Vortraining mit Online-Tokenisierung

Der Erfolg von Sprach-Transformern wird hauptsächlich dem Vorab-Aufgabe des maskierten Sprachmodellierens (Masked Language Modeling, MLM) zugeschrieben, bei der Texte zunächst in semantisch bedeutsame Teile tokenisiert werden. In dieser Arbeit untersuchen wir das maskierte Bildmodellieren (Masked Image Modeling, MIM) und weisen die Vorteile und Herausforderungen eines semantisch bedeutsamen visuellen Tokenizers auf. Wir präsentieren ein selbstüberwachtes Framework namens iBOT, das eine maskierte Vorhersage mit einem Online-Tokenizer durchführen kann. Insbesondere führen wir Selbstverdichtung auf maskierten Patch-Token durch und verwenden das Lehrernetzwerk als Online-Tokenizer, wobei gleichzeitig Selbstverdichtung am Klassentoken zur Gewinnung visueller Semantik durchgeführt wird. Der Online-Tokenizer ist zusammen mit dem MIM-Ziel lernfähig und entbindet uns von einer mehrstufigen Trainingspipeline, bei der der Tokenizer vorab vortrainiert werden muss. Wir zeigen die Überlegenheit von iBOT durch eine lineare Probing-Genauigkeit von 82,3 % und eine Feinjustierungs-Genauigkeit von 87,8 %, evaluiert auf ImageNet-1K. Neben den erstklassigen Ergebnissen in der Bildklassifizierung betonen wir auftretende lokale semantische Muster, die den Modellen helfen, eine starke Robustheit gegen übliche Korruptionen zu erlangen und führende Ergebnisse bei dichten nachgelagerten Aufgaben wie Objekterkennung, Instanzsegmentierung und semantischer Segmentierung zu erzielen.