Globale Filter-Netzwerke für die Bildklassifikation

Neuere Fortschritte bei Selbst-Attention-Modellen und reinen mehrschichtigen Perzeptronen (MLP) für die Bildverarbeitung haben großes Potenzial gezeigt, um mit geringeren induktiven Vorannahmen vielversprechende Leistungen zu erzielen. Diese Modelle basieren im Allgemeinen auf der Lernung von Interaktionen zwischen räumlichen Positionen direkt aus Rohdaten. Die Komplexität von Selbst-Attention und MLP wächst quadratisch mit der Bildgröße, was diese Modelle erschwert, wenn hochauflösende Merkmale erforderlich sind. In diesem Paper präsentieren wir das Global Filter Network (GFNet), eine konzeptionell einfache, aber recheneffiziente Architektur, die langfristige räumliche Abhängigkeiten im Frequenzbereich mit log-linearer Komplexität lernt. Unser Ansatz ersetzt die Selbst-Attention-Schicht in Vision Transformers durch drei zentrale Operationen: eine zweidimensionale diskrete Fourier-Transformation, eine elementweise Multiplikation zwischen frequenzdomänengebundenen Merkmalen und lernbaren globalen Filtern sowie eine zweidimensionale inverse Fourier-Transformation. Wir zeigen günstige Kompromisse zwischen Genauigkeit und Komplexität unserer Modelle sowohl auf ImageNet als auch auf nachgeschalteten Aufgaben. Unsere Ergebnisse belegen, dass GFNet eine äußerst wettbewerbsfähige Alternative zu Transformer-basierten Modellen und CNNs hinsichtlich Effizienz, Generalisierungsfähigkeit und Robustheit sein kann. Der Quellcode ist unter https://github.com/raoyongming/GFNet verfügbar.