Gleichgewichtige Mischung von SuperNets zur Lernung der CNN-Pooling-Architektur

Abtastungsschichten, einschließlich Pooling- und strided Convolutionen, sind entscheidende Komponenten der architektonischen Gestaltung von Faltungsneuralen Netzen, da sie sowohl die Granularität/Skala der Bildmerkmalsanalyse als auch die Empfindlichkeitsfeldgröße einer gegebenen Schicht bestimmen. Um dieses Problem umfassend zu verstehen, analysieren wir die Leistung von Modellen, die unabhängig mit jeweils unterschiedlichen Pooling-Konfigurationen auf CIFAR10 mittels eines ResNet20-Netzwerks trainiert wurden, und zeigen, dass die Position der Abtastungsschichten erheblichen Einfluss auf die Netzwerkleistung haben kann und vorgegebene Abtastungskonfigurationen nicht optimal sind. Die Suche nach Netzwerkarchitekturen (Network Architecture Search, NAS) könnte verwendet werden, um Abtastungskonfigurationen als Hyperparameter zu optimieren. Allerdings stellen wir fest, dass übliche One-Shot-NAS-Ansätze auf Basis eines einzelnen SuperNet nicht für dieses Problem geeignet sind. Wir argumentieren, dass dies darauf zurückzuführen ist, dass ein SuperNet, das zur Findung der optimalen Pooling-Konfiguration trainiert wird, seine Parameter vollständig zwischen allen Pooling-Konfigurationen teilt. Dies erschwert das Training erheblich, da das Lernen bestimmter Konfigurationen die Leistung anderer beeinträchtigen kann. Daher schlagen wir einen ausgewogenen Mix aus SuperNets vor, der automatisch Pooling-Konfigurationen unterschiedlichen Gewichtsmodellen zuordnet und so die Gewichtsvereinigung sowie die gegenseitige Beeinflussung der Pooling-Konfigurationen auf die SuperNet-Parameter reduziert. Wir evaluieren unseren Ansatz anhand von CIFAR10, CIFAR100 sowie Food101 und zeigen, dass er in allen Fällen die Leistung anderer Ansätze übertrifft und gegenüber den voreingestellten Pooling-Konfigurationen deutlich verbessert.