HyperAIHyperAI
vor 3 Monaten

CycleMLP: Eine MLP-ähnliche Architektur für dichte Vorhersagen

Shoufa Chen, Enze Xie, Chongjian Ge, Runjian Chen, Ding Liang, Ping Luo
CycleMLP: Eine MLP-ähnliche Architektur für dichte Vorhersagen
Abstract

Diese Arbeit präsentiert eine einfache, MLP-ähnliche Architektur namens CycleMLP, die als vielseitiger Backbone für visuelle Erkennung und dichte Vorhersagen dient. Im Vergleich zu modernen MLP-Architekturen wie MLP-Mixer, ResMLP und gMLP, deren Strukturen von der Bildgröße abhängen und daher in Aufgaben wie Objekterkennung und Segmentierung nicht praktikabel sind, weist CycleMLP zwei entscheidende Vorteile gegenüber aktuellen Ansätzen auf: (1) Sie kann verschiedene Bildgrößen verarbeiten, und (2) erreicht eine lineare rechnerische Komplexität bezüglich der Bildgröße durch den Einsatz lokaler Fenster. Im Gegensatz dazu weisen herkömmliche MLPs aufgrund vollständiger räumlicher Verbindungen eine Komplexität von $O(N^2)$ auf. Wir entwickeln eine Familie von Modellen, die bestehende MLPs sowie sogar state-of-the-art Transformer-basierte Modelle, wie beispielsweise den Swin Transformer, übertreffen, während sie gleichzeitig weniger Parameter und FLOPs benötigen. Dadurch erweitern wir die Anwendbarkeit MLP-ähnlicher Modelle und etablieren sie als vielseitige Backbones für dichte Vorhersageaufgaben. CycleMLP erzielt wettbewerbsfähige Ergebnisse bei der Objekterkennung, der Instanzsegmentierung und der semantischen Segmentierung. Insbesondere übertrifft CycleMLP-Tiny den Swin-Tiny um 1,3 % mIoU auf dem ADE20K-Datensatz, wobei weniger FLOPs verwendet werden. Zudem zeigt CycleMLP außergewöhnliche Robustheit im Zero-Shot-Szenario auf dem ImageNet-C-Datensatz. Der Quellcode ist unter https://github.com/ShoufaChen/CycleMLP verfügbar.