vor 17 Tagen

WaveMix-Lite: Ein ressourcenschonender neuronaler Netzwerkansatz für die Bildanalyse

{Amit, Pranav; Sethi, Jeevan}

Details der Forschungsarbeit anzeigen View Code

WaveMix-Lite: Ein ressourcenschonender neuronaler Netzwerkansatz für die Bildanalyse

Abstract

Fortschritte bei der Generalisierungsfähigkeit neuronaler Netze für Aufgaben der Bildanalyse sind bisher mit einem Anstieg der Anzahl an Parametern und Schichten, der Datensatzgrößen, sowie der Rechenanforderungen während Training und Test und des benötigten GPU-RAMs einhergegangen. Wir stellen eine neue Architektur – WaveMix-Lite – vor, die eine vergleichbare Generalisierungsfähigkeit wie aktuelle Transformers und konvolutionale neuronale Netze (CNNs) erreicht, dabei jedoch deutlich geringere Ressourcen benötigt. WaveMix-Lite nutzt die zweidimensionale diskrete Wavelet-Transformation, um räumliche Informationen effizient aus Pixeln zu mischen. WaveMix-Lite scheint ein vielseitiges und skalierbares architektonisches Framework zu sein, das für verschiedene visuelle Aufgaben – wie Bildklassifikation und semantische Segmentierung – ohne signifikante Architekturänderungen eingesetzt werden kann, im Gegensatz zu Transformers und CNNs. Sie erreicht oder übertrifft mehrere Accuracy-Benchmark-Werte, während sie auf einer einzigen GPU trainiert wird. Beispielsweise erzielt sie die derzeit besten Ergebnisse auf fünf EMNIST-Datensätzen, übertrifft sowohl CNNs als auch Transformers auf ImageNet-1K und Places-365 und erreicht auf der Validierungs-Testmenge von Cityscapes eine mIoU von 77 %, wobei sie weniger als ein Fünftel der Parameter und die Hälfte des GPU-RAMs vergleichbarer CNNs oder Transformers nutzt. Unsere Experimente zeigen, dass, während konvolutionale Elemente in neuronalen Architekturen die Verschiebungsinvarianz von Bildern ausnutzen, neue Arten von Schichten (z. B. Wavelet-Transformation) zusätzliche Eigenschaften von Bildern, wie Skalierungsinvarianz und endliche räumliche Ausdehnung von Objekten, effizient ausnutzen können.