il y a 11 jours

Lignes directrices pour la régularisation des gammas dans la Normalisation par lots pour les réseaux résiduels profonds

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Dong Gu Lee, Wonseok Jeong, Sang Woo Kim

Résumé

La régularisation L2 des poids dans les réseaux de neurones est largement utilisée comme une technique standard d’entraînement. Toutefois, la régularisation L2 appliquée au paramètre ajustable gamma de la normalisation par lots (batch normalization) demeure un mystère peu exploré, et est mise en œuvre de manières différentes selon les bibliothèques et les praticiens. Dans cet article, nous étudions la validité de la régularisation L2 appliquée à gamma. Pour aborder cette question, nous envisageons deux approches : 1) le contrôle de la variance afin de faire comporter le réseau résiduel comme une application identité, et 2) une optimisation stable grâce à l’amélioration du taux d’apprentissage effectif. À travers deux analyses, nous précisons les valeurs de gamma souhaitables et indésirables pour lesquelles la régularisation L2 est pertinente, et proposons quatre directives pour les gérer. Dans plusieurs expériences, nous observons l’augmentation ou la diminution des performances résultant de l’application de la régularisation L2 à gamma de quatre catégories, ce qui est cohérent avec nos quatre directives. Ces dernières ont été validées à travers diverses tâches et architectures, y compris des variantes de réseaux résiduels et de modèles transformer.