HyperAIHyperAI

Command Palette

Search for a command to run...

Reversible Architekturen für beliebig tiefe residuelle neuronale Netze

Bo Chang Lili Meng Eldad Haber Lars Ruthotto David Begert Elliot Holtham

Zusammenfassung

Kürzlich wurden tiefe Residualnetze erfolgreich in vielen Aufgaben der Computer Vision und der natürlichen Sprachverarbeitung eingesetzt, wobei sie mit tieferen und breiteren Architekturen den Stand der Technik in Bezug auf Leistung verbesserten. In dieser Arbeit interpretieren wir tiefe Residualnetze als gewöhnliche Differentialgleichungen (ODEs), die seit langem in Mathematik und Physik untersucht werden und eine reiche Theorie sowie empirische Erfolge aufweisen. Aus dieser Interpretation entwickeln wir ein theoretisches Framework zur Stabilität und Umkehrbarkeit von tiefen neuronalen Netzen und leiten drei umkehrbare neuronale Netzarchitekturen ab, die theoretisch beliebig tief sein können. Die Umkehrbarkeits-Eigenschaft ermöglicht eine speichereffiziente Implementierung, bei der die Aktivierungen für die meisten versteckten Schichten nicht gespeichert werden müssen. Zusammen mit der Stabilität unserer Architekturen ermöglicht dies das Training tiefer Netze unter Verwendung nur moderater Rechenressourcen. Wir liefern sowohl theoretische Analysen als auch empirische Ergebnisse. Experimentelle Ergebnisse zeigen die Effektivität unserer Architekturen gegenüber mehreren starken Baselines auf CIFAR-10, CIFAR-100 und STL-10 mit überlegener oder vergleichbarer state-of-the-art-Leistung. Darüber hinaus zeigen wir, dass unsere Architekturen überlegene Ergebnisse erzielen, wenn sie mit weniger Trainingsdaten trainiert werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Reversible Architekturen für beliebig tiefe residuelle neuronale Netze | Paper | HyperAI