Réseaux de Résidus Profonds avec Unité Linéaire Exponentielle

Les réseaux neuronaux convolutifs très profonds ont introduit de nouveaux problèmes tels que le gradient qui disparait et la dégradation. Les contributions récentes et réussies pour résoudre ces problèmes sont les Réseaux Résiduels (Residual Networks) et les Réseaux Autoroutiers (Highway Networks). Ces réseaux introduisent des connexions de saut qui permettent à l'information (provenant de l'entrée ou apprise dans les couches précédentes) de circuler davantage vers les couches plus profondes. Ces modèles très profonds ont entraîné une diminution considérable des erreurs de test sur des benchmarks comme ImageNet et COCO. Dans cet article, nous proposons d'utiliser l'unité linéaire exponentielle (Exponential Linear Unit, ELU) au lieu de la combinaison de ReLU et de la Normalisation par Lots (Batch Normalization) dans les Réseaux Résiduels. Nous montrons que cela non seulement accélère l'apprentissage dans les Réseaux Résiduels, mais améliore également la précision à mesure que la profondeur augmente. Cela améliore l'erreur de test sur presque tous les ensembles de données, tels que CIFAR-10 et CIFAR-100.