WaveMix: Ein ressourcenschonendes neuronales Netzwerk für Bildanalyse

Wir schlagen eine neue neuronale Architektur für Computer Vision vor – WaveMix –, die ressourcenschonend ist und dennoch allgemein anwendbar und skalierbar. Obwohl sie weniger trainierbare Parameter, GPU-RAM und Berechnungen verwendet, erreichen WaveMix-Netze bei mehreren Aufgaben vergleichbare oder bessere Genauigkeit als die neuesten konvolutionellen Neuronennetze, Vision-Transformer und Token-Mixer. Diese Effizienz kann sich in Zeit-, Kosteneinsparungen und Energieeinsparungen übersetzen. Um diese Vorteile zu erzielen, haben wir in den WaveMix-Blöcken eine mehrstufige zweidimensionale diskrete Wavelet-Transformation (2D-DWT) verwendet, die folgende Vorzüge bietet: (1) Sie ordnet räumliche Informationen basierend auf drei starken Bildvoraussetzungen neu – Skaleninvarianz, Translationsinvarianz und Sparsität von Kanten – (2) auf verlustfreie Weise ohne zusätzliche Parameter hinzuzufügen, (3) während sie gleichzeitig die räumlichen Größen der Feature Maps reduziert, was den Speicherbedarf und die Zeit für Vorwärts- und Rückwärtsdurchläufe verringert, und (4) das Rezeptivfeld schneller erweitert als Konvolutionen. Die gesamte Architektur besteht aus einer Stapelung selbstähnlicher und auflösungsbehaftender WaveMix-Blöcke, was architektonische Flexibilität für verschiedene Aufgaben und Ressourcenverfügbarkeitsstufen ermöglicht. WaveMix legt neue Benchmarks für die Segmentierung auf Cityscapes fest; sowie für die Klassifizierung auf Galaxy 10 DECals, Places-365, fünf EMNIST-Datensätzen und iNAT-mini und zeigt wettbewerbsfähige Leistungen bei anderen Benchmarks. Unser Code und unsere trainierten Modelle sind öffentlich verfügbar.