Sur l'importance des couches de normalisation dans l'apprentissage profond avec des unités d'activation linéaires par morceaux

Les réseaux de neurones profonds à activation linéaire par morceaux produisent actuellement des résultats de pointe sur plusieurs ensembles de données publics. La combinaison de modèles d'apprentissage profond et de fonctions d'activation linéaires par morceaux permet l'estimation de fonctions exponentiellement complexes grâce à l'utilisation d'un grand nombre de sous-réseaux spécialisés dans la classification d'exemples d'entrée similaires. Au cours du processus d'entraînement, ces sous-réseaux évitent le surapprentissage grâce à un schéma de régularisation implicite basé sur le fait qu'ils doivent partager leurs paramètres avec d'autres sous-réseaux. En utilisant ce cadre, nous avons fait une observation empirique qui peut encore améliorer les performances de ces modèles. Nous remarquons que ces modèles supposent une distribution initiale équilibrée des points de données par rapport au domaine de la fonction d'activation linéaire par morceaux. Si cette hypothèse est violée, les unités d'activation linéaire par morceaux peuvent se dégrader en unités d'activation purement linéaires, ce qui peut entraîner une réduction significative de leur capacité à apprendre des fonctions complexes. De plus, lorsque le nombre de couches du modèle augmente, cette distribution initiale déséquilibrée rend le modèle mal conditionné. Par conséquent, nous proposons l'introduction d'unités de normalisation par lots (batch normalisation) dans les réseaux de neurones profonds à activation linéaire par morceaux, ce qui favorise une utilisation plus équilibrée de ces unités d'activation, où chaque région de la fonction d'activation est formée avec une proportion relativement importante d'échantillons d'entraînement. Cette normalisation par lots favorise également la préconditionnement des modèles très profonds. Nous montrons que l'introduction d'unités Maxout et de normalisation par lots dans le modèle Network in Network conduit à un modèle qui produit des résultats de classification supérieurs ou comparables aux résultats actuels de pointe sur les ensembles de données CIFAR-10, CIFAR-100, MNIST et SVHN.