HyperAIHyperAI
il y a 2 mois

Réseaux de Neurones Auto-Normalisés

Günter Klambauer; Thomas Unterthiner; Andreas Mayr; Sepp Hochreiter
Réseaux de Neurones Auto-Normalisés
Résumé

L'apprentissage profond (Deep Learning) a révolutionné la vision par le biais des réseaux de neurones convolutifs (CNNs) et le traitement du langage naturel grâce aux réseaux de neurones récurrents (RNNs). Cependant, les succès de l'apprentissage profond avec des réseaux de neurones à alimentation directe standards (FNNs) sont rares. Les FNNs qui fonctionnent bien sont généralement peu profonds et, par conséquent, ne peuvent pas exploiter plusieurs niveaux de représentations abstraites. Nous introduisons les réseaux de neurones auto-normalisants (SNNs) pour permettre des représentations abstraites de haut niveau. Alors que la normalisation par lots (batch normalization) nécessite une normalisation explicite, les activations neuronales des SNNs convergent automatiquement vers une moyenne nulle et une variance unitaire. La fonction d'activation des SNNs est les « unités linéaires exponentielles échelonnées » (SELUs), qui induisent des propriétés auto-normalisantes. En utilisant le théorème du point fixe de Banach, nous démontrons que les activations proches d'une moyenne nulle et d'une variance unitaire propagées à travers de nombreuses couches de réseau convergeront vers une moyenne nulle et une variance unitaire — même en présence de bruit et de perturbations. Cette propriété de convergence des SNNs permet (1) d'entraîner des réseaux profonds avec beaucoup de couches, (2) d'utiliser une régularisation forte, et (3) de rendre l'apprentissage très robuste. De plus, pour les activations dont la variance n'est pas proche d'une variance unitaire, nous prouvons une borne supérieure et inférieure sur la variance, ce qui rend impossible les gradients qui s'évanouissent ou explosent. Nous avons comparé les SNNs à (a) 121 tâches issues du dépôt UCI Machine Learning Repository, à (b) des benchmarks pour la découverte de médicaments, et à (c) des tâches en astronomie avec des FNNs standards et d'autres méthodes d'apprentissage automatique telles que les forêts aléatoires et les machines à vecteurs de support. Les SNNs ont significativement surpassé toutes les méthodes concurrentes basées sur les FNNs dans 121 tâches UCI, surpassé toutes les méthodes concurrentes dans le jeu de données Tox21, et établi un nouveau record sur un ensemble de données en astronomie. Les architectures gagnantes des SNNs sont souvent très profondes. Des implémentations sont disponibles sur : github.com/bioinf-jku/SNNs.

Réseaux de Neurones Auto-Normalisés | Articles de recherche récents | HyperAI