HyperAIHyperAI

Command Palette

Search for a command to run...

iBOT: Bild-BERT-Vortraining mit Online-Tokenisierung

Jinghao Zhou¹ Chen Wei² Huiyu Wang² Wei Shen³ Cihang Xie⁴ Alan Yuille² Tao Kong¹

Zusammenfassung

Der Erfolg von Sprach-Transformern wird hauptsächlich dem Vorab-Aufgabe des maskierten Sprachmodellierens (Masked Language Modeling, MLM) zugeschrieben, bei der Texte zunächst in semantisch bedeutsame Teile tokenisiert werden. In dieser Arbeit untersuchen wir das maskierte Bildmodellieren (Masked Image Modeling, MIM) und weisen die Vorteile und Herausforderungen eines semantisch bedeutsamen visuellen Tokenizers auf. Wir präsentieren ein selbstüberwachtes Framework namens iBOT, das eine maskierte Vorhersage mit einem Online-Tokenizer durchführen kann. Insbesondere führen wir Selbstverdichtung auf maskierten Patch-Token durch und verwenden das Lehrernetzwerk als Online-Tokenizer, wobei gleichzeitig Selbstverdichtung am Klassentoken zur Gewinnung visueller Semantik durchgeführt wird. Der Online-Tokenizer ist zusammen mit dem MIM-Ziel lernfähig und entbindet uns von einer mehrstufigen Trainingspipeline, bei der der Tokenizer vorab vortrainiert werden muss. Wir zeigen die Überlegenheit von iBOT durch eine lineare Probing-Genauigkeit von 82,3 % und eine Feinjustierungs-Genauigkeit von 87,8 %, evaluiert auf ImageNet-1K. Neben den erstklassigen Ergebnissen in der Bildklassifizierung betonen wir auftretende lokale semantische Muster, die den Modellen helfen, eine starke Robustheit gegen übliche Korruptionen zu erlangen und führende Ergebnisse bei dichten nachgelagerten Aufgaben wie Objekterkennung, Instanzsegmentierung und semantischer Segmentierung zu erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp