vor 2 Monaten

Selbstnormierende Neuronale Netze

Günter Klambauer; Thomas Unterthiner; Andreas Mayr; Sepp Hochreiter

Abstract

Tiefes Lernen hat durch Faltungsschicht-Neuronale Netze (CNNs) die Bildverarbeitung und durch rekurrente Neuronale Netze (RNNs) die natürlichsprachliche Verarbeitung revolutioniert. Allerdings sind Erfolgsgeschichten von Tiefem Lernen mit Standard-Feedforward-Neuronalen Netzen (FNNs) selten. FNNs, die gut abschneiden, sind in der Regel flach und können daher nicht mehrere Ebenen abstrakter Darstellungen nutzen. Wir stellen selbstnormierende Neuronale Netze (SNNs) vor, um hochstufige abstrakte Darstellungen zu ermöglichen. Während Batch-Normalisierung eine explizite Normalisierung erfordert, konvergieren die Aktivierungsfunktionen von SNNs automatisch zu einem Mittelwert von null und einer Varianz von eins. Die Aktivierungsfunktionen von SNNs sind „skalierte exponentielle lineare Einheiten“ (SELUs), die selbstnormierende Eigenschaften induzieren. Unter Verwendung des Banachschen Fixpunktsatzes beweisen wir, dass Aktivierungen nahe bei einem Mittelwert von null und einer Varianz von eins, die durch viele Netzwerkschichten propagiert werden, auch unter Anwesenheit von Rauschen und Störungen zu einem Mittelwert von null und einer Varianz von eins konvergieren. Diese Konvergenzeigenschaft der SNNs ermöglicht es, (1) tiefere Netze mit vielen Schichten zu trainieren, (2) starke Regularisierung einzusetzen und (3) das Lernen sehr robust zu gestalten. Des Weiteren beweisen wir für Aktivierungen, die sich nicht nahe bei einer Varianz von eins befinden, eine obere und untere Schranke an die Varianz; somit sind verschwindende und explodierende Gradienten unmöglich. Wir verglichen SNNs auf (a) 121 Aufgaben aus dem UCI-Maschinellen-Lern-Repository, auf (b) Benchmarks für Arzneimittelentwicklung und auf (c) Astronomieaufgaben mit Standard-FNNs sowie anderen Maschinellen-Lern-Methoden wie Random Forests und Support Vector Machines. SNNs übertrafen alle konkurrierenden FNN-Methoden bei den 121 UCI-Aufgaben signifikant, übertrafen alle konkurrierenden Methoden beim Tox21-Datensatz und stellten bei einem Astronomiedatensatz einen neuen Rekord auf. Die siegreichen SNN-Architekturen sind oft sehr tief. Implementierungen sind verfügbar unter: github.com/bioinf-jku/SNNs.