HyperAIHyperAI

Command Palette

Search for a command to run...

Lignes directrices pour la régularisation des gammas dans la Normalisation par lots pour les réseaux résiduels profonds

Bum Jun Kim Hyeyeon Choi Hyeonah Jang Dong Gu Lee Wonseok Jeong Sang Woo Kim

Résumé

La régularisation L2 des poids dans les réseaux de neurones est largement utilisée comme une technique standard d’entraînement. Toutefois, la régularisation L2 appliquée au paramètre ajustable gamma de la normalisation par lots (batch normalization) demeure un mystère peu exploré, et est mise en œuvre de manières différentes selon les bibliothèques et les praticiens. Dans cet article, nous étudions la validité de la régularisation L2 appliquée à gamma. Pour aborder cette question, nous envisageons deux approches : 1) le contrôle de la variance afin de faire comporter le réseau résiduel comme une application identité, et 2) une optimisation stable grâce à l’amélioration du taux d’apprentissage effectif. À travers deux analyses, nous précisons les valeurs de gamma souhaitables et indésirables pour lesquelles la régularisation L2 est pertinente, et proposons quatre directives pour les gérer. Dans plusieurs expériences, nous observons l’augmentation ou la diminution des performances résultant de l’application de la régularisation L2 à gamma de quatre catégories, ce qui est cohérent avec nos quatre directives. Ces dernières ont été validées à travers diverses tâches et architectures, y compris des variantes de réseaux résiduels et de modèles transformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp