HyperAIHyperAI

Command Palette

Search for a command to run...

Architekturunabhängige maskeierte Bildmodellierung – Von ViT zurück zu CNN

Siyuan Li Di Wu Fang Wu Zelin Zang Stan.Z.Li

Zusammenfassung

Masked Image Modeling (MIM), eine neuartige selbstüberwachte Vortrainingsmethode, hat bei zahlreichen nachgeschalteten Vision-Aufgaben mit Vision-Transformern beeindruckende Erfolge erzielt. Der zugrundeliegende Ansatz ist einfach: Ein Teil des Eingabebildes wird maskiert und anschließend über eine Vor-Text-Aufgabe rekonstruiert. Allerdings ist das zugrundeliegende Arbeitsprinzip von MIM bisher nicht ausreichend erklärt, und frühere Studien behaupten, dass MIM primär für die Transformer-Familie geeignet ist und mit CNNs nicht kompatibel ist. In dieser Arbeit beobachten wir, dass MIM im Wesentlichen das Modell lehrt, bessere mittelreihige Wechselwirkungen zwischen Bildteilen (Patches) zu lernen, um allgemeinere Merkmalsextraktion zu ermöglichen. Darauf aufbauend schlagen wir einen architekturunabhängigen Ansatz für Masked Image Modeling (A²MIM) vor, der sowohl mit Transformers als auch mit CNNs einheitlich kompatibel ist. Umfangreiche Experimente auf etablierten Benchmarks zeigen, dass A²MIM ohne explizite Architekturdesigns bessere Darstellungen lernt und das Backbone-Modell mit einer stärkeren Fähigkeit zur Übertragung auf diverse nachgeschaltete Aufgaben ausstattet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp