Comment utiliser correctement la dropout sur les réseaux résiduels avec normalisation par lot

Dans le cadre de l'optimisation stable des réseaux de neurones profonds, des méthodes de régularisation telles que le dropout et la normalisation par lot ont été largement utilisées dans diverses tâches. Toutefois, la position optimale d'application du dropout n’a été que rarement explorée, et les praticiens ont souvent recours à des emplacements différents selon leurs préférences. Dans cette étude, nous investiguons la position correcte pour appliquer le dropout. Nous démontrons que, dans un réseau résiduel doté d'une normalisation par lot, l'application du dropout à certaines positions améliore les performances, tandis qu'une application à d'autres positions peut au contraire les détériorer. Sur la base d'une analyse théorique, nous proposons la ligne directrice suivante pour l'application correcte du dropout : appliquer un seul dropout après la dernière normalisation par lot, mais avant la dernière couche de poids dans la branche résiduelle. Nous fournissons des explications théoriques détaillées pour étayer cette proposition et la validons à travers des tests de modules. Par ailleurs, nous examinons également la position optimale du dropout dans la tête du réseau, responsable de la prédiction finale. Bien que la pratique courante consiste à appliquer le dropout après le pooling moyen global, nous démontrons que l'application du dropout avant le pooling moyen global conduit à une sortie plus stable. Les orientations proposées sont confirmées par des expériences menées sur différents jeux de données et architectures de modèles.