HyperAIHyperAI
il y a 18 jours

Normalisation par sandwich : un remplacement direct pour l'hétérogénéité de la distribution des caractéristiques

Xinyu Gong, Wuyang Chen, Tianlong Chen, Zhangyang Wang
Normalisation par sandwich : un remplacement direct pour l'hétérogénéité de la distribution des caractéristiques
Résumé

Nous présentons Sandwich Batch Normalization (SaBN), une amélioration remarquablement simple de la Normalisation par Mini-batch (BN), nécessitant uniquement quelques lignes de modifications de code. SaBN est motivée par la nécessité de traiter l’hétérogénéité intrinsèque des distributions de caractéristiques observée dans de nombreuses tâches, qui peut découler de l’hétérogénéité des données (présence de plusieurs domaines d’entrée) ou de l’hétérogénéité du modèle (architectures dynamiques, conditionnement du modèle, etc.). Notre approche factorise la couche affine de BN en une seule couche affine partagée en forme de « sandwich », suivie de plusieurs couches affines indépendantes en parallèle. Une analyse concrète révèle que, durant l’optimisation, SaBN favorise des normes de gradients équilibrées tout en préservant des directions de gradients diversifiées — une propriété que de nombreuses tâches d’applications semblent privilégier. Nous démontrons l’efficacité supérieure de SaBN en tant que remplacement direct dans quatre tâches : génération d’images conditionnelles, recherche d’architecture neuronale (NAS), entraînement adversarial et transfert de style arbitraire. En intégrant SaBN, on obtient immédiatement de meilleurs scores Inception et FID sur la génération d’images conditionnelles sur CIFAR-10 et ImageNet avec trois GANs d’état de l’art ; on améliore significativement les performances d’un algorithme de NAS à partage de poids d’état de l’art sur NAS-Bench-201 ; on améliore de manière substantielle les précisions standard et robuste dans le cadre de la défense contre les attaques adversariales ; et on produit des résultats stylisés arbitraires de meilleure qualité. Nous fournissons également des visualisations et une analyse approfondie pour mieux comprendre les mécanismes sous-jacents à l’efficacité de SaBN. Le code est disponible à l’adresse suivante : https://github.com/VITA-Group/Sandwich-Batch-Normalization.

Normalisation par sandwich : un remplacement direct pour l'hétérogénéité de la distribution des caractéristiques | Articles de recherche récents | HyperAI