vor 17 Tagen

Momentum-Residual-Neuronale Netze

Michael E. Sander, Pierre Ablin, Mathieu Blondel, Gabriel Peyré

Abstract

Die Ausbildung tiefer residualer neuronaler Netze (ResNets) mittels Rückpropagation weist einen Speicherverbrauch auf, der linear mit der Tiefe des Netzwerks ansteigt. Eine Möglichkeit, dieses Problem zu umgehen, besteht in der Verwendung reversibler Architekturen. In diesem Artikel schlagen wir vor, die Forward-Regel eines ResNets durch Einführung eines Impulsterms zu verändern. Die resultierenden Netze, sogenannte Momentum-ResNets, sind invertierbar. Im Gegensatz zu früheren invertierbaren Architekturen können sie als direkte Ersatzkomponente für beliebige bestehende ResNet-Blöcke eingesetzt werden. Wir zeigen, dass Momentum-ResNets im Grenzfall infinitesimal kleiner Schrittweiten als zweite Ordnung gewöhnliche Differentialgleichungen (ODEs) interpretiert werden können und exakt charakterisieren, wie die Hinzufügung von Impuls die Darstellungsfähigkeit der Momentum-ResNets schrittweise erhöht. Unsere Analyse ergibt, dass Momentum-ResNets jede lineare Abbildung bis auf einen skalaren Faktor lernen können, während dies bei herkömmlichen ResNets nicht möglich ist. In einer Lern-zu-Optimieren-Situation, in der Konvergenz zu einem Fixpunkt erforderlich ist, zeigen wir theoretisch und empirisch, dass unsere Methode erfolgreich ist, während bestehende invertierbare Architekturen versagen. Anhand von CIFAR und ImageNet zeigen wir, dass Momentum-ResNets dieselbe Genauigkeit wie herkömmliche ResNets erreichen, dabei aber einen deutlich geringeren Speicherbedarf aufweisen, und belegen, dass vortrainierte Momentum-ResNets vielversprechend für das Feinabstimmen von Modellen sind.