HyperAIHyperAI
vor 16 Tagen

Architekturunabhängige maskeierte Bildmodellierung – Von ViT zurück zu CNN

Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Stan.Z.Li
Architekturunabhängige maskeierte Bildmodellierung – Von ViT zurück zu CNN
Abstract

Masked Image Modeling (MIM), eine neuartige selbstüberwachte Vortrainingsmethode, hat bei zahlreichen nachgeschalteten Vision-Aufgaben mit Vision-Transformern beeindruckende Erfolge erzielt. Der zugrundeliegende Ansatz ist einfach: Ein Teil des Eingabebildes wird maskiert und anschließend über eine Vor-Text-Aufgabe rekonstruiert. Allerdings ist das zugrundeliegende Arbeitsprinzip von MIM bisher nicht ausreichend erklärt, und frühere Studien behaupten, dass MIM primär für die Transformer-Familie geeignet ist und mit CNNs nicht kompatibel ist. In dieser Arbeit beobachten wir, dass MIM im Wesentlichen das Modell lehrt, bessere mittelreihige Wechselwirkungen zwischen Bildteilen (Patches) zu lernen, um allgemeinere Merkmalsextraktion zu ermöglichen. Darauf aufbauend schlagen wir einen architekturunabhängigen Ansatz für Masked Image Modeling (A²MIM) vor, der sowohl mit Transformers als auch mit CNNs einheitlich kompatibel ist. Umfangreiche Experimente auf etablierten Benchmarks zeigen, dass A²MIM ohne explizite Architekturdesigns bessere Darstellungen lernt und das Backbone-Modell mit einer stärkeren Fähigkeit zur Übertragung auf diverse nachgeschaltete Aufgaben ausstattet.