HyperAIHyperAI
vor 17 Tagen

AS-MLP: Eine axiale verschobene MLP-Architektur für die Vision

Dongze Lian, Zehao Yu, Xing Sun, Shenghua Gao
AS-MLP: Eine axiale verschobene MLP-Architektur für die Vision
Abstract

In dieser Arbeit wird eine Axial verschobene MLP-Architektur (AS-MLP) vorgeschlagen. Im Gegensatz zu MLP-Mixer, bei dem die globale räumliche Information durch Matrixtransposition und einen einzigen Token-Mixing-MLP für den Informationsfluss kodiert wird, legen wir hier stärker Wert auf die Interaktion lokaler Merkmale. Durch axiales Verschieben der Kanäle der Merkmalskarte ermöglicht AS-MLP den Informationsfluss aus verschiedenen axialen Richtungen, wodurch lokale Abhängigkeiten erfasst werden können. Diese Operation erlaubt es uns, eine reine MLP-Architektur zu nutzen, um denselben lokalen Empfindlichkeitsfeldumfang wie bei CNN-ähnlichen Architekturen zu erreichen. Zudem können wir die Größe des Empfindlichkeitsfeldes und die Dilatation der Blöcke von AS-MLP analog zur Vorgehensweise bei neuronalen Netzwerken mit Faltungen gestalten. Mit der vorgeschlagenen AS-MLP-Architektur erreicht unser Modell eine Top-1-Accuracy von 83,3 % bei 88 M Parametern und 15,2 GFLOPs auf dem ImageNet-1K-Datensatz. Diese einfache, aber effektive Architektur übertrifft alle bisherigen MLP-basierten Architekturen und erzielt eine konkurrenzfähige Leistung im Vergleich zu Transformer-basierten Architekturen (z. B. Swin Transformer), selbst bei leicht geringeren FLOPs. Darüber hinaus ist AS-MLP die erste MLP-basierte Architektur, die auf nachgeschaltete Aufgaben wie Objekterkennung und semantische Segmentierung angewendet wurde. Die experimentellen Ergebnisse sind ebenfalls beeindruckend: Unser vorgeschlagener AS-MLP erreicht 51,5 mAP auf dem COCO-Validierungssatz und 49,5 MS mIoU auf dem ADE20K-Datensatz, was mit Transformer-basierten Architekturen vergleichbar ist. AS-MLP etabliert damit eine starke Baseline für MLP-basierte Architekturen. Der Quellcode ist unter https://github.com/svip-lab/AS-MLP verfügbar.

AS-MLP: Eine axiale verschobene MLP-Architektur für die Vision | Neueste Forschungsarbeiten | HyperAI