Apprentissage de Mappages d'Identité avec des Portes Résiduelles

Nous proposons une nouvelle conception de couche en ajoutant un mécanisme de porte linéaire aux connexions de raccourci. En utilisant un paramètre scalaire pour contrôler chaque porte, nous offrons un moyen d'apprendre des mappages identitaires en optimisant uniquement un paramètre. Nous nous appuyons sur la motivation derrière les Réseaux Résiduels, où une couche est reformulée afin de rendre l'apprentissage des mappages identitaires moins problématique pour l'optimiseur. L'augmentation introduit seulement un paramètre supplémentaire par couche et facilite l'optimisation en rendant la dégénérescence en mappages identitaires plus simple. Nous proposons un nouveau modèle, le Réseau Résiduel Géré (Gated Residual Network), qui est le résultat de l'augmentation des Réseaux Résiduels. Les résultats expérimentaux montrent que l'augmentation des couches fournit une meilleure optimisation, une performance accrue et une plus grande indépendance des couches. Nous évaluons notre méthode sur MNIST à l'aide de réseaux entièrement connectés, montrant des indications empiriques que notre augmentation facilite l'optimisation des modèles profonds et qu'elle offre une tolérance élevée à la suppression totale des couches : le modèle conserve plus de 90 % de sa performance même après que la moitié de ses couches a été supprimée aléatoirement. Nous évaluons également notre modèle sur CIFAR-10 et CIFAR-100 à l'aide de Wide Gated ResNets, atteignant respectivement des taux d'erreur de 3,65 % et 18,27 %.