HyperAIHyperAI

Command Palette

Search for a command to run...

Über die Bedeutung von Normalisierungsschichten im Deep Learning mit stückweise linearen Aktivierungseinheiten

Zhibin Liao; Gustavo Carneiro

Zusammenfassung

Tiefe Feedforward-Neuronale Netze mit stückweise linearen Aktivierungsfunktionen erzielen derzeit die besten Ergebnisse in mehreren öffentlichen Datensätzen. Die Kombination von tiefen Lernmodellen und stückweise linearen Aktivierungsfunktionen ermöglicht es, exponentiell komplexe Funktionen durch den Einsatz einer großen Anzahl von Subnetzen zu schätzen, die auf der Klassifizierung ähnlicher Eingabebeispiele spezialisiert sind. Während des Trainingsprozesses vermeiden diese Subnetze Overfitting durch ein implizites Regularisierungsverfahren, das darauf basiert, dass sie ihre Parameter mit anderen Subnetzen teilen müssen. Innerhalb dieses Rahmens haben wir eine empirische Beobachtung gemacht, die die Leistung solcher Modelle noch weiter verbessern kann. Wir bemerken, dass diese Modelle eine ausgewogene anfängliche Verteilung der Datenpunkte im Bezug zum Definitionsbereich der stückweise linearen Aktivierungsfunktion voraussetzen. Wenn diese Annahme verletzt wird, können die stückweise linearen Aktivierungseinheiten in rein lineare Aktivierungseinheiten degenerieren, was zu einem erheblichen Rückgang ihrer Fähigkeit führen kann, komplexe Funktionen zu lernen. Zudem führt eine unbalancierte anfängliche Verteilung bei steigender Anzahl von Modellschichten zu einem schlecht konditionierten Modell. Daher schlagen wir vor, Batch-Normalisierungseinheiten in tiefe Feedforward-Neuronale Netze mit stückweise linearen Aktivierungsfunktionen einzuführen, was einen ausgeglicheneren Einsatz dieser Aktivierungseinheiten fördert, wobei jeder Bereich der Aktivierungsfunktion mit einem relativ großen Anteil von Trainingsbeispielen trainiert wird. Diese Batch-Normalisierung fördert zudem die Vorbedingung sehr tiefer Lernmodelle. Wir zeigen, dass die Einführung von Maxout- und Batch-Normalisierungseinheiten in das Network-in-Network-Modell zu einem Modell führt, das Klassifikationsergebnisse erzielt, die besser sind oder sich mit dem aktuellen Stand der Technik in den Datensätzen CIFAR-10, CIFAR-100, MNIST und SVHN vergleichen lassen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp