MUXConv: Informations-Multiplexing in convolutionalen neuronalen Netzen

Korrelationsschaltungen haben in den letzten Jahren bemerkenswerte Fortschritte in Bezug auf die rechnerische Effizienz erzielt. Ein zentraler Treiber dieser Entwicklung war die Idee, Modellausdruckskraft und Effizienz durch eine Kombination aus $1\times 1$-Konvolutionen und tiefenweise separierbaren Konvolutionen im Vergleich zu herkömmlichen konvolutionellen Schichten zu trade-off-n. Der Preis für diese Effizienzsteigerung liegt jedoch in einer suboptimalen Informationsflussübertragung über Raum und Kanäle im Netzwerk. Um diese Einschränkung zu überwinden, stellen wir MUXConv vor, eine Schicht, die darauf ausgelegt ist, die Informationsflussdynamik durch schrittweise Multiplexierung von Kanal- und räumlicher Information im Netzwerk zu erhöhen, gleichzeitig jedoch die rechnerische Komplexität begrenzt. Darüber hinaus demonstrieren wir die Wirksamkeit von MUXConv, indem wir es in einen effizienten mehrzieligen evolutionären Algorithmus integrieren, um die optimalen Modellhyperparameter zu suchen, während gleichzeitig Genauigkeit, Kompaktheit und rechnerische Effizienz optimiert werden. Auf ImageNet erreichen die resultierenden Modelle, die als MUXNets bezeichnet werden, die Leistung (75,3 % Top-1-Accuracy) und die Anzahl der Multiply-Add-Operationen (218 M) von MobileNetV3, sind jedoch 1,6-fach kompakter und übertrifft alle anderen mobilen Modelle in allen drei Kriterien. MUXNet zeigt zudem hervorragende Leistung bei Transfer Learning und bei der Anpassung an Objektdetektion. Auf dem ChestX-Ray-14-Benchmark erreicht es eine Genauigkeit, die mit dem Stand der Technik vergleichbar ist, ist jedoch 3,3-fach kompakter und 14-fach effizienter. Ähnlich verhält es sich bei der Detektion auf PASCAL VOC 2007: Die Genauigkeit ist um 1,2 % höher, die Geschwindigkeit um 28 % schneller und die Kompaktheit um 6 % besser im Vergleich zu MobileNetV2. Der Quellcode ist über https://github.com/human-analysis/MUXConv verfügbar.