HyperAIHyperAI
vor 17 Tagen

MetaFormer-Baselines für Vision

Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng, Shuicheng Yan, Xinchao Wang
MetaFormer-Baselines für Vision
Abstract

MetaFormer, die abstrahierte Architektur des Transformers, hat sich als entscheidend für eine wettbewerbsfähige Leistung erwiesen. In dieser Arbeit untersuchen wir weiterhin das Potenzial von MetaFormer – diesmal jedoch ohne den Fokus auf die Gestaltung des Token-Mixers: Wir stellen mehrere Basismodelle innerhalb des MetaFormer-Rahmens vor, die jeweils die einfachsten oder gängigsten Mixer verwenden, und fassen unsere Beobachtungen wie folgt zusammen: (1) MetaFormer gewährleistet eine solide untere Leistungsgrenze. Durch die reine Verwendung einer Identitätsabbildung als Token-Mixer erreicht das MetaFormer-Modell, das als IdentityFormer bezeichnet wird, eine Genauigkeit von über 80 % auf ImageNet-1K. (2) MetaFormer funktioniert gut mit beliebigen Token-Mixern. Selbst wenn der Token-Mixer durch eine zufällige Matrix definiert wird, die die Tokens mischt, erreicht das resultierende Modell RandFormer eine Genauigkeit von über 81 % und übertrifft damit IdentityFormer. Bei der Einführung neuer Token-Mixer kann man sich auf die Ergebnisse von MetaFormer verlassen. (3) MetaFormer ermöglicht problemlos state-of-the-art Ergebnisse. Mit lediglich herkömmlichen Token-Mixern, die bereits vor fünf Jahren etabliert waren, erreichen Modelle, die aus MetaFormer abgeleitet wurden, bereits eine überlegene Leistung im Vergleich zum Stand der Technik. (a) ConvFormer übertrifft ConvNeXt. Indem man übliche Tiefenweise-separable-Faltungen als Token-Mixer nutzt, entsteht das Modell ConvFormer, das als reine CNNs betrachtet werden kann und das starke CNN-Modell ConvNeXt schlägt. (b) CAFormer setzt neuen Rekord auf ImageNet-1K. Durch die einfache Anwendung von tiefenweise-separable-Faltungen als Token-Mixer in den unteren Stufen und klassischer Selbst-Attention in den oberen Stufen erreicht das resultierende Modell CAFormer einen neuen Rekord auf ImageNet-1K: Es erzielt eine Genauigkeit von 85,5 % bei einer Auflösung von 224×224 unter normaler überwachter Trainingsbedingung ohne externe Daten oder Distillation. In unserer Untersuchung von MetaFormer entdecken wir außerdem eine neue Aktivierungsfunktion, StarReLU, die im Vergleich zu GELU die FLOPs der Aktivierung um 71 % reduziert, gleichzeitig jedoch eine bessere Leistung erzielt. Wir erwarten, dass StarReLU großes Potenzial sowohl in MetaFormer-ähnlichen Modellen als auch in anderen neuronalen Netzwerken entfalten wird.

MetaFormer-Baselines für Vision | Neueste Forschungsarbeiten | HyperAI