Wie beeinflusst die Topologie neuraler Architekturen die Gradientenpropagation und die Modellleistung?
{Radu Marculescu Guihong Li2 Kartikeya Bhardwa}

Abstract
DenseNets führen Verkettungsartige Skip-Verbindungen ein, die eine state-of-the-art Genauigkeit bei mehreren Aufgaben im Bereich des maschinellen Sehens erzielen. In diesem Paper zeigen wir, dass die Topologie dieser Verkettungsartigen Skip-Verbindungen eng mit der Gradientenpropagation verknüpft ist, was wiederum ein vorhersagbares Verhalten der Testleistung von DNNs ermöglicht. Dazu führen wir eine neue Metrik namens NN-Mass ein, um die Effizienz des Informationsflusses durch DNNs quantitativ zu erfassen. Darüber hinaus belegen wir empirisch, dass NN-Mass auch für andere Arten von Skip-Verbindungen geeignet ist, beispielsweise für ResNets, Wide-ResNets (WRNs) und MobileNets, die Additionstyp-Skip-Verbindungen (d. h. Residuen oder invertierte Residuen) enthalten. Auf diese Weise kann unsere theoretisch fundierte NN-Mass sowohl bei DenseNet-ähnlichen CNNs als auch bei ResNets/WRNs/MobileNets Modelle mit vergleichbarer Genauigkeit identifizieren, obwohl diese erhebliche Unterschiede hinsichtlich Größe und Rechenanforderungen aufweisen. Ausführliche Experimente an synthetischen und realen Datensätzen (z. B. MNIST, CIFAR-10, CIFAR-100, ImageNet) liefern umfassende Belege für unsere Erkenntnisse. Schließlich ermöglicht die geschlossene Formel von NN-Mass die direkte, ohne zeitaufwändiges Training und/oder Suchen, signifikante Kompression von DenseNets (für CIFAR-10) und MobileNets (für ImageNet) bereits bei der Initialisierung.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| neural-architecture-search-on-cifar-10 | NN-MASS- CIFAR-C | FLOPS: 1.2G Parameters: 3.82M Search Time (GPU days): 0 Top-1 Error Rate: 3.18% |
| neural-architecture-search-on-cifar-10 | NN-MASS- CIFAR-A | FLOPS: 1.95G Parameters: 5.02M Search Time (GPU days): 0 Top-1 Error Rate: 3.0% |
| neural-architecture-search-on-imagenet | NN-MASS-B | Accuracy: 73.3 FLOPs: 393M MACs: 393M Params: 3.7M Top-1 Error Rate: 26.7 |
| neural-architecture-search-on-imagenet | NN-MASS-A | Accuracy: 72.9 FLOPs: 200M MACs: 200M Params: 2.3M Top-1 Error Rate: 27.1 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.