Reversible Architekturen für beliebig tiefe residuelle neuronale Netze

Kürzlich wurden tiefe Residualnetze erfolgreich in vielen Aufgaben der Computer Vision und der natürlichen Sprachverarbeitung eingesetzt, wobei sie mit tieferen und breiteren Architekturen den Stand der Technik in Bezug auf Leistung verbesserten. In dieser Arbeit interpretieren wir tiefe Residualnetze als gewöhnliche Differentialgleichungen (ODEs), die seit langem in Mathematik und Physik untersucht werden und eine reiche Theorie sowie empirische Erfolge aufweisen. Aus dieser Interpretation entwickeln wir ein theoretisches Framework zur Stabilität und Umkehrbarkeit von tiefen neuronalen Netzen und leiten drei umkehrbare neuronale Netzarchitekturen ab, die theoretisch beliebig tief sein können. Die Umkehrbarkeits-Eigenschaft ermöglicht eine speichereffiziente Implementierung, bei der die Aktivierungen für die meisten versteckten Schichten nicht gespeichert werden müssen. Zusammen mit der Stabilität unserer Architekturen ermöglicht dies das Training tiefer Netze unter Verwendung nur moderater Rechenressourcen. Wir liefern sowohl theoretische Analysen als auch empirische Ergebnisse. Experimentelle Ergebnisse zeigen die Effektivität unserer Architekturen gegenüber mehreren starken Baselines auf CIFAR-10, CIFAR-100 und STL-10 mit überlegener oder vergleichbarer state-of-the-art-Leistung. Darüber hinaus zeigen wir, dass unsere Architekturen überlegene Ergebnisse erzielen, wenn sie mit weniger Trainingsdaten trainiert werden.