Command Palette
Search for a command to run...
Tout ce dont vous avez besoin, c'est d'une bonne initialisation.
Tout ce dont vous avez besoin, c'est d'une bonne initialisation.
Dmytro Mishkin; Jiri Matas
Résumé
L'initialisation par variance unitaire séquentielle de couche (LSUV) est proposée comme une méthode simple d'initialisation des poids pour l'apprentissage des réseaux de neurones profonds. Cette méthode se compose de deux étapes. Premièrement, initialiser préalablement les poids de chaque couche de convolution ou de produit interne avec des matrices orthogonales. Deuxièmement, procéder de la première à la dernière couche, en normalisant la variance de la sortie de chaque couche pour qu'elle soit égale à un.Des expériences menées avec différentes fonctions d'activation (maxout, familles ReLU, tanh) montrent que l'initialisation proposée permet l'apprentissage de réseaux très profonds qui (i) produisent des réseaux avec une précision au test équivalente ou supérieure aux méthodes standards et (ii) est au moins aussi rapide que les schémas complexes spécifiquement conçus pour les réseaux très profonds tels que FitNets (Romero et al., 2015) et Highway (Srivastava et al., 2015).Les performances sont évaluées sur GoogLeNet, CaffeNet, FitNets et les réseaux résiduels, atteignant l'état de l'art ou s'en approchant très fortement sur les jeux de données MNIST, CIFAR-10/100 et ImageNet.