HyperAI

Abstract

DenseNets führen Verkettungsartige Skip-Verbindungen ein, die eine state-of-the-art Genauigkeit bei mehreren Aufgaben im Bereich des maschinellen Sehens erzielen. In diesem Paper zeigen wir, dass die Topologie dieser Verkettungsartigen Skip-Verbindungen eng mit der Gradientenpropagation verknüpft ist, was wiederum ein vorhersagbares Verhalten der Testleistung von DNNs ermöglicht. Dazu führen wir eine neue Metrik namens NN-Mass ein, um die Effizienz des Informationsflusses durch DNNs quantitativ zu erfassen. Darüber hinaus belegen wir empirisch, dass NN-Mass auch für andere Arten von Skip-Verbindungen geeignet ist, beispielsweise für ResNets, Wide-ResNets (WRNs) und MobileNets, die Additionstyp-Skip-Verbindungen (d. h. Residuen oder invertierte Residuen) enthalten. Auf diese Weise kann unsere theoretisch fundierte NN-Mass sowohl bei DenseNet-ähnlichen CNNs als auch bei ResNets/WRNs/MobileNets Modelle mit vergleichbarer Genauigkeit identifizieren, obwohl diese erhebliche Unterschiede hinsichtlich Größe und Rechenanforderungen aufweisen. Ausführliche Experimente an synthetischen und realen Datensätzen (z. B. MNIST, CIFAR-10, CIFAR-100, ImageNet) liefern umfassende Belege für unsere Erkenntnisse. Schließlich ermöglicht die geschlossene Formel von NN-Mass die direkte, ohne zeitaufwändiges Training und/oder Suchen, signifikante Kompression von DenseNets (für CIFAR-10) und MobileNets (für ImageNet) bereits bei der Initialisierung.

Benchmarks

Benchmark	Methodik	Metriken
neural-architecture-search-on-cifar-10	NN-MASS- CIFAR-C	FLOPS: 1.2G Parameters: 3.82M Search Time (GPU days): 0 Top-1 Error Rate: 3.18%
neural-architecture-search-on-cifar-10	NN-MASS- CIFAR-A	FLOPS: 1.95G Parameters: 5.02M Search Time (GPU days): 0 Top-1 Error Rate: 3.0%
neural-architecture-search-on-imagenet	NN-MASS-B	Accuracy: 73.3 FLOPs: 393M MACs: 393M Params: 3.7M Top-1 Error Rate: 26.7
neural-architecture-search-on-imagenet	NN-MASS-A	Accuracy: 72.9 FLOPs: 200M MACs: 200M Params: 2.3M Top-1 Error Rate: 27.1

Wie beeinflusst die Topologie neuraler Architekturen die Gradientenpropagation und die Modellleistung?

{Radu Marculescu Guihong Li2 Kartikeya Bhardwa}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Wie beeinflusst die Topologie neuraler Architekturen die Gradientenpropagation und die Modellleistung?

{Radu Marculescu Guihong Li2 Kartikeya Bhardwa}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters