HyperAIHyperAI

Command Palette

Search for a command to run...

Globale Filter-Netzwerke für die Bildklassifikation

Yongming Rao Wenliang Zhao Zheng Zhu Jiwen Lu Jie Zhou

Zusammenfassung

Neuere Fortschritte bei Selbst-Attention-Modellen und reinen mehrschichtigen Perzeptronen (MLP) für die Bildverarbeitung haben großes Potenzial gezeigt, um mit geringeren induktiven Vorannahmen vielversprechende Leistungen zu erzielen. Diese Modelle basieren im Allgemeinen auf der Lernung von Interaktionen zwischen räumlichen Positionen direkt aus Rohdaten. Die Komplexität von Selbst-Attention und MLP wächst quadratisch mit der Bildgröße, was diese Modelle erschwert, wenn hochauflösende Merkmale erforderlich sind. In diesem Paper präsentieren wir das Global Filter Network (GFNet), eine konzeptionell einfache, aber recheneffiziente Architektur, die langfristige räumliche Abhängigkeiten im Frequenzbereich mit log-linearer Komplexität lernt. Unser Ansatz ersetzt die Selbst-Attention-Schicht in Vision Transformers durch drei zentrale Operationen: eine zweidimensionale diskrete Fourier-Transformation, eine elementweise Multiplikation zwischen frequenzdomänengebundenen Merkmalen und lernbaren globalen Filtern sowie eine zweidimensionale inverse Fourier-Transformation. Wir zeigen günstige Kompromisse zwischen Genauigkeit und Komplexität unserer Modelle sowohl auf ImageNet als auch auf nachgeschalteten Aufgaben. Unsere Ergebnisse belegen, dass GFNet eine äußerst wettbewerbsfähige Alternative zu Transformer-basierten Modellen und CNNs hinsichtlich Effizienz, Generalisierungsfähigkeit und Robustheit sein kann. Der Quellcode ist unter https://github.com/raoyongming/GFNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Globale Filter-Netzwerke für die Bildklassifikation | Paper | HyperAI