HyperAIHyperAI

Command Palette

Search for a command to run...

SimMIM: Ein einfaches Framework für maskiertes Bildmodellieren

Zhenda Xie Zheng Zhang Yue Cao Yutong Lin Jianmin Bao Zhuliang Yao Qi Dai Han Hu

Zusammenfassung

Diese Arbeit präsentiert SimMIM, einen einfachen Rahmen für die maskebasierte Bildmodellierung. Wir vereinfachen kürzlich vorgeschlagene Ansätze, indem wir auf spezielle Gestaltungen wie blockweise Maskierung oder Tokenisierung mittels diskreter VAE oder Clustering verzichten. Um zu untersuchen, welche Faktoren die maskebasierte Bildmodellierung dazu befähigen, gute Repräsentationen zu lernen, untersuchen wir systematisch die zentralen Komponenten unseres Rahmens und stellen fest, dass einfache Gestaltungen jeder einzelnen Komponente eine äußerst starke Leistung im Bereich der Repräsentationslernung erzielen: 1) Die zufällige Maskierung des Eingabebildes mit einer moderat großen maskierten Patch-Größe (z. B. 32) bildet eine anspruchsvolle Vortextaufgabe; 2) die Vorhersage der Rohpixelwerte im RGB-Raum mittels direkter Regression erzielt eine Leistung, die der von Ansätzen mit Patch-Klassifikation und komplexen Architekturen nicht nachsteht; 3) der Vorhersagekopf kann so einfach wie eine lineare Schicht ausfallen, ohne dass die Leistung darunter leidet. Mit ViT-B erreicht unsere Methode bei einer Vortrainings- und Feintuning-Prüfung auf ImageNet-1K eine Top-1-Accuracy von 83,8 %, wodurch die bisher beste Methode um +0,6 % übertroffen wird. Bei Anwendung auf ein größeres Modell mit etwa 650 Millionen Parametern, SwinV2-H, erreicht sie eine Top-1-Accuracy von 87,1 % auf ImageNet-1K unter Verwendung lediglich von ImageNet-1K-Daten. Zudem nutzen wir diesen Ansatz, um die Trainingseffizienz eines 3-Billionen-Parameter-Modells (SwinV2-G) zu verbessern: Mit nur 1/40 der Datenmenge im Vergleich zu früheren Praktiken erreichen wir den Stand der Technik auf vier repräsentativen visuellen Benchmarks. Der Quellcode und die Modelle werden öffentlich unter https://github.com/microsoft/SimMIM bereitgestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp