Command Palette
Search for a command to run...
Alles, was du brauchst, ist eine gute Initialisierung.
Alles, was du brauchst, ist eine gute Initialisierung.
Dmytro Mishkin; Jiri Matas
Zusammenfassung
Die Layer-sequential unit-variance (LSUV)-Initialisierung – eine einfache Methode zur Gewichtsinitialisierung für tiefes Netzwerk-Lernen – wird vorgeschlagen. Die Methode besteht aus zwei Schritten. Zunächst werden die Gewichte jeder Faltungsschicht oder Inner-Product-Schicht mit orthonormalen Matrizen vorinitialisiert. Anschließend wird von der ersten bis zur letzten Schicht vorgegangen, wobei die Varianz des Outputs jeder Schicht auf eins normiert wird.Experimente mit verschiedenen Aktivierungsfunktionen (Maxout, ReLU-Familie, tanh) zeigen, dass die vorgeschlagene Initialisierung zu einem Lernen sehr tiefer Netze führt, das (i) Netzwerke mit einer Testgenauigkeit erzeugt, die besser oder gleich gut ist wie bei Standardmethoden und (ii) mindestens so schnell ist wie die speziell für sehr tiefe Netze entwickelten komplexen Schemata wie FitNets (Romero et al. (2015)) und Highway (Srivastava et al. (2015)).Die Leistung wurde anhand von GoogLeNet, CaffeNet, FitNets und Residualnets evaluiert, und es wurde der Stand der Technik oder zumindest eine sehr nahe Annäherung an diesen erreicht auf den Datensätzen MNIST, CIFAR-10/100 und ImageNet.