HyperAIHyperAI
vor 17 Tagen

Wie beeinflusst die Topologie neuraler Architekturen die Gradientenpropagation und die Modellleistung?

{Radu Marculescu, Guihong Li2, Kartikeya Bhardwa}
Wie beeinflusst die Topologie neuraler Architekturen die Gradientenpropagation und die Modellleistung?
Abstract

DenseNets führen Verkettungsartige Skip-Verbindungen ein, die eine state-of-the-art Genauigkeit bei mehreren Aufgaben im Bereich des maschinellen Sehens erzielen. In diesem Paper zeigen wir, dass die Topologie dieser Verkettungsartigen Skip-Verbindungen eng mit der Gradientenpropagation verknüpft ist, was wiederum ein vorhersagbares Verhalten der Testleistung von DNNs ermöglicht. Dazu führen wir eine neue Metrik namens NN-Mass ein, um die Effizienz des Informationsflusses durch DNNs quantitativ zu erfassen. Darüber hinaus belegen wir empirisch, dass NN-Mass auch für andere Arten von Skip-Verbindungen geeignet ist, beispielsweise für ResNets, Wide-ResNets (WRNs) und MobileNets, die Additionstyp-Skip-Verbindungen (d. h. Residuen oder invertierte Residuen) enthalten. Auf diese Weise kann unsere theoretisch fundierte NN-Mass sowohl bei DenseNet-ähnlichen CNNs als auch bei ResNets/WRNs/MobileNets Modelle mit vergleichbarer Genauigkeit identifizieren, obwohl diese erhebliche Unterschiede hinsichtlich Größe und Rechenanforderungen aufweisen. Ausführliche Experimente an synthetischen und realen Datensätzen (z. B. MNIST, CIFAR-10, CIFAR-100, ImageNet) liefern umfassende Belege für unsere Erkenntnisse. Schließlich ermöglicht die geschlossene Formel von NN-Mass die direkte, ohne zeitaufwändiges Training und/oder Suchen, signifikante Kompression von DenseNets (für CIFAR-10) und MobileNets (für ImageNet) bereits bei der Initialisierung.