HyperAIHyperAI

Command Palette

Search for a command to run...

AS-MLP: Eine axiale verschobene MLP-Architektur für die Vision

Dongze Lian Zehao Yu Xing Sun Shenghua Gao

Zusammenfassung

In dieser Arbeit wird eine Axial verschobene MLP-Architektur (AS-MLP) vorgeschlagen. Im Gegensatz zu MLP-Mixer, bei dem die globale räumliche Information durch Matrixtransposition und einen einzigen Token-Mixing-MLP für den Informationsfluss kodiert wird, legen wir hier stärker Wert auf die Interaktion lokaler Merkmale. Durch axiales Verschieben der Kanäle der Merkmalskarte ermöglicht AS-MLP den Informationsfluss aus verschiedenen axialen Richtungen, wodurch lokale Abhängigkeiten erfasst werden können. Diese Operation erlaubt es uns, eine reine MLP-Architektur zu nutzen, um denselben lokalen Empfindlichkeitsfeldumfang wie bei CNN-ähnlichen Architekturen zu erreichen. Zudem können wir die Größe des Empfindlichkeitsfeldes und die Dilatation der Blöcke von AS-MLP analog zur Vorgehensweise bei neuronalen Netzwerken mit Faltungen gestalten. Mit der vorgeschlagenen AS-MLP-Architektur erreicht unser Modell eine Top-1-Accuracy von 83,3 % bei 88 M Parametern und 15,2 GFLOPs auf dem ImageNet-1K-Datensatz. Diese einfache, aber effektive Architektur übertrifft alle bisherigen MLP-basierten Architekturen und erzielt eine konkurrenzfähige Leistung im Vergleich zu Transformer-basierten Architekturen (z. B. Swin Transformer), selbst bei leicht geringeren FLOPs. Darüber hinaus ist AS-MLP die erste MLP-basierte Architektur, die auf nachgeschaltete Aufgaben wie Objekterkennung und semantische Segmentierung angewendet wurde. Die experimentellen Ergebnisse sind ebenfalls beeindruckend: Unser vorgeschlagener AS-MLP erreicht 51,5 mAP auf dem COCO-Validierungssatz und 49,5 MS mIoU auf dem ADE20K-Datensatz, was mit Transformer-basierten Architekturen vergleichbar ist. AS-MLP etabliert damit eine starke Baseline für MLP-basierte Architekturen. Der Quellcode ist unter https://github.com/svip-lab/AS-MLP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AS-MLP: Eine axiale verschobene MLP-Architektur für die Vision | Paper | HyperAI