HyperAIHyperAI
vor 17 Tagen

MLP-Mixer: Eine vollständig aus MLPs bestehende Architektur für die Bildverarbeitung

Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy
MLP-Mixer: Eine vollständig aus MLPs bestehende Architektur für die Bildverarbeitung
Abstract

Convolutional Neural Networks (CNNs) sind das Standardmodell für Computer Vision. In jüngster Zeit haben auch auf Aufmerksamkeit basierende Netzwerke, wie der Vision Transformer, an Beliebtheit gewonnen. In diesem Paper zeigen wir, dass obwohl sowohl Faltung (convolutions) als auch Aufmerksamkeit (attention) ausreichend für eine hohe Leistung sind, keiner von beiden notwendig ist. Wir stellen MLP-Mixer vor, eine Architektur, die ausschließlich auf mehrschichtigen Perzeptronen (MLPs) basiert. MLP-Mixer enthält zwei Arten von Schichten: eine, bei der MLPs unabhängig auf Bildsegmente angewendet werden (d. h. die Merkmale pro Ort „mischen“), und eine andere, bei der MLPs über die Segmentgrenzen hinweg angewendet werden (d. h. räumliche Informationen „mischen“). Bei der Trainierung auf großen Datensätzen oder mit modernen Regularisierungsschemata erreicht MLP-Mixer wettbewerbsfähige Ergebnisse auf gängigen Benchmarks für Bildklassifikation, wobei die Kosten für Vorverarbeitung und Inferenz vergleichbar mit denen von state-of-the-art-Modellen sind. Wir hoffen, dass diese Ergebnisse weitere Forschung jenseits der etablierten Domänen von CNNs und Transformers anregen.