HyperAIHyperAI

Command Palette

Search for a command to run...

MLP-Mixer: Eine vollständig aus MLPs bestehende Architektur für die Bildverarbeitung

Zusammenfassung

Convolutional Neural Networks (CNNs) sind das Standardmodell für Computer Vision. In jüngster Zeit haben auch auf Aufmerksamkeit basierende Netzwerke, wie der Vision Transformer, an Beliebtheit gewonnen. In diesem Paper zeigen wir, dass obwohl sowohl Faltung (convolutions) als auch Aufmerksamkeit (attention) ausreichend für eine hohe Leistung sind, keiner von beiden notwendig ist. Wir stellen MLP-Mixer vor, eine Architektur, die ausschließlich auf mehrschichtigen Perzeptronen (MLPs) basiert. MLP-Mixer enthält zwei Arten von Schichten: eine, bei der MLPs unabhängig auf Bildsegmente angewendet werden (d. h. die Merkmale pro Ort „mischen“), und eine andere, bei der MLPs über die Segmentgrenzen hinweg angewendet werden (d. h. räumliche Informationen „mischen“). Bei der Trainierung auf großen Datensätzen oder mit modernen Regularisierungsschemata erreicht MLP-Mixer wettbewerbsfähige Ergebnisse auf gängigen Benchmarks für Bildklassifikation, wobei die Kosten für Vorverarbeitung und Inferenz vergleichbar mit denen von state-of-the-art-Modellen sind. Wir hoffen, dass diese Ergebnisse weitere Forschung jenseits der etablierten Domänen von CNNs und Transformers anregen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp