Évaluation empirique des activations rectifiées dans les réseaux de neurones convolutifs

Dans cet article, nous examinons les performances de différents types de fonctions d'activation rectifiées dans les réseaux neuronaux convolutifs : l'unité linéaire rectifiée standard (ReLU), l'unité linéaire rectifiée fuyante (Leaky ReLU), l'unité linéaire rectifiée paramétrique (PReLU) et une nouvelle unité linéaire rectifiée fuyante aléatoire (RReLU). Nous évaluons ces fonctions d'activation sur une tâche standard de classification d'images. Nos expériences suggèrent qu'inclure une pente non nulle pour la partie négative des unités d'activation rectifiées peut améliorer de manière constante les résultats. Ainsi, nos conclusions remettent en question la croyance courante selon laquelle la parcimonie est la clé d'une bonne performance dans le ReLU. De plus, sur des ensembles de données à petite échelle, l'utilisation d'une pente négative déterministe ou son apprentissage sont tous deux susceptibles de conduire au surapprentissage. Elles ne sont pas aussi efficaces que l'utilisation de leur contrepartie aléatoire. En utilisant RReLU, nous avons atteint une précision de 75,68 % sur l'ensemble de test CIFAR-100 sans tests multiples ni combinaison.