Permuted AdaIN : Réduction du biais en faveur des statistiques globales dans la classification d'images

Des travaux récents ont montré que les classificateurs basés sur les réseaux de neurones convolutifs s’appuient excessivement sur les textures au détriment des indices de forme. Nous introduisons une distinction similaire, mais différente, entre les indices locaux d’image (forme et textures) d’une part, et les statistiques globales d’image d’autre part. Notre méthode, nommée Normalisation d’Instance Adaptative Permutée (pAdaIN), réduit la représentation des statistiques globales dans les couches cachées des classificateurs d’images. La méthode pAdaIN échantillonne une permutation aléatoire $π$ qui réorganise les échantillons d’un même batch. Ensuite, la Normalisation d’Instance Adaptative (AdaIN) est appliquée entre les activations de chaque échantillon (non permuté) $i$ et les activations correspondantes de l’échantillon $π(i)$, ce qui a pour effet d’échanger les statistiques entre les échantillons du batch. Comme les statistiques globales d’image sont altérées par cette permutation, le processus d’échange force le réseau à s’appuyer davantage sur des indices locaux tels que la forme ou la texture. En choisissant la permutation aléatoire avec une probabilité $p$, et en conservant l’identité sinon, on peut contrôler l’intensité de cet effet.Avec un choix approprié de $p$, fixé a priori pour toutes les expériences et sélectionné sans aucune connaissance des données de test, notre méthode surpasse de manière cohérente les méthodes de référence dans plusieurs scénarios. En classification d’images, elle améliore les performances sur CIFAR100 et ImageNet, indépendamment de l’architecture utilisée. Dans le cadre de la robustesse, elle obtient des résultats supérieurs sur ImageNet-C et CIFAR100-C pour plusieurs architectures. Enfin, dans les tâches d’adaptation de domaine et de généralisation de domaine, elle atteint des performances de pointe sur la tâche d’apprentissage par transfert de GTAV vers Cityscapes, ainsi que sur le benchmark PACS.