vor 2 Monaten

Über die Bedeutung von Normalisierungsschichten im Deep Learning mit stückweise linearen Aktivierungseinheiten

Zhibin Liao; Gustavo Carneiro

Abstract

Tiefe Feedforward-Neuronale Netze mit stückweise linearen Aktivierungsfunktionen erzielen derzeit die besten Ergebnisse in mehreren öffentlichen Datensätzen. Die Kombination von tiefen Lernmodellen und stückweise linearen Aktivierungsfunktionen ermöglicht es, exponentiell komplexe Funktionen durch den Einsatz einer großen Anzahl von Subnetzen zu schätzen, die auf der Klassifizierung ähnlicher Eingabebeispiele spezialisiert sind. Während des Trainingsprozesses vermeiden diese Subnetze Overfitting durch ein implizites Regularisierungsverfahren, das darauf basiert, dass sie ihre Parameter mit anderen Subnetzen teilen müssen. Innerhalb dieses Rahmens haben wir eine empirische Beobachtung gemacht, die die Leistung solcher Modelle noch weiter verbessern kann. Wir bemerken, dass diese Modelle eine ausgewogene anfängliche Verteilung der Datenpunkte im Bezug zum Definitionsbereich der stückweise linearen Aktivierungsfunktion voraussetzen. Wenn diese Annahme verletzt wird, können die stückweise linearen Aktivierungseinheiten in rein lineare Aktivierungseinheiten degenerieren, was zu einem erheblichen Rückgang ihrer Fähigkeit führen kann, komplexe Funktionen zu lernen. Zudem führt eine unbalancierte anfängliche Verteilung bei steigender Anzahl von Modellschichten zu einem schlecht konditionierten Modell. Daher schlagen wir vor, Batch-Normalisierungseinheiten in tiefe Feedforward-Neuronale Netze mit stückweise linearen Aktivierungsfunktionen einzuführen, was einen ausgeglicheneren Einsatz dieser Aktivierungseinheiten fördert, wobei jeder Bereich der Aktivierungsfunktion mit einem relativ großen Anteil von Trainingsbeispielen trainiert wird. Diese Batch-Normalisierung fördert zudem die Vorbedingung sehr tiefer Lernmodelle. Wir zeigen, dass die Einführung von Maxout- und Batch-Normalisierungseinheiten in das Network-in-Network-Modell zu einem Modell führt, das Klassifikationsergebnisse erzielt, die besser sind oder sich mit dem aktuellen Stand der Technik in den Datensätzen CIFAR-10, CIFAR-100, MNIST und SVHN vergleichen lassen.