MetaFormer ist eigentlich das, was Sie für die Vision benötigen

Transformers haben großes Potenzial bei Aufgaben im Bereich des maschinellen Sehens gezeigt. Eine verbreitete Annahme besagt, dass der auf Aufmerksamkeit basierende Token-Mixer-Modul maßgeblich zum Leistungsvermögen beiträgt. Neuere Arbeiten zeigen jedoch, dass der Aufmerksamkeitsmodul in Transformers durch räumliche MLPs ersetzt werden kann, ohne dass die Leistung deutlich leidet. Ausgehend von dieser Beobachtung vermuten wir, dass die allgemeine Architektur der Transformers – anstatt des spezifischen Token-Mixer-Moduls – entscheidender für die Modellleistung ist. Um dies zu überprüfen, ersetzen wir absichtlich den Aufmerksamkeitsmodul in Transformers durch einen äußerst einfachen räumlichen Pooling-Operator, der lediglich eine grundlegende Token-Mischung ermöglicht. Überraschenderweise erreicht das resultierende Modell, das als PoolFormer bezeichnet wird, auf mehreren Aufgaben des maschinellen Sehens konkurrenzfähige Ergebnisse. Beispielsweise erzielt PoolFormer auf ImageNet-1K eine Top-1-Accuracy von 82,1 %, wobei dies die gut abgestimmten Baselines Vision Transformer/MLP-ähnliche Modelle DeiT-B/ResMLP-B24 um 0,3 % bzw. 1,1 % übertrifft, dabei jedoch 35 % bzw. 52 % weniger Parameter und 50 % bzw. 62 % weniger MACs benötigt. Die Effektivität von PoolFormer bestätigt unsere Hypothese und motiviert uns, den Begriff des „MetaFormer“ einzuführen – eine allgemeine Architektur, die aus Transformers abstrahiert wurde, ohne den Token-Mixer spezifiziert zu haben. Aufgrund umfangreicher Experimente argumentieren wir, dass der MetaFormer der entscheidende Faktor für die herausragenden Ergebnisse der jüngsten Transformer- und MLP-ähnlichen Modelle bei visuellen Aufgaben ist. Diese Arbeit ruft dazu auf, künftige Forschung stärker auf die Verbesserung des MetaFormer zu fokussieren, anstatt sich ausschließlich auf die Optimierung der Token-Mixer-Module zu konzentrieren. Darüber hinaus kann das vorgeschlagene PoolFormer als Ausgangspunkt für zukünftige Architekturdesigns von MetaFormer dienen. Der Quellcode ist unter https://github.com/sail-sg/poolformer verfügbar.