il y a 17 jours

Normalisation par lots étendue

Chunjie Luo, Jianfeng Zhan, Lei Wang, Wanling Gao

Résumé

La normalisation par lots (Batch Normalization, BN) est devenue une technique standard pour l’entraînement des réseaux profonds modernes. Toutefois, son efficacité diminue lorsque la taille du lot devient petite, car l’estimation des statistiques du lot devient imprécise. Ce défaut limite son utilisation dans deux cas importants : 1) l’entraînement de modèles plus grands nécessitant de petits lots en raison de contraintes de mémoire ; 2) l’entraînement sur des dispositifs mobiles ou embarqués dont les ressources mémoire sont limitées. Dans cet article, nous proposons une méthode simple mais efficace, appelée normalisation par lots étendue (Extended Batch Normalization, EBN). Pour les cartes de caractéristiques au format NCHW, la normalisation par lots étendue calcule la moyenne selon les dimensions (N, H, W), tout comme la normalisation par lots classique, afin de préserver ses avantages. Pour atténuer le problème lié à une taille de lot réduite, la normalisation par lots étendue calcule l’écart-type selon les dimensions (N, C, H, W), ce qui augmente ainsi le nombre d’échantillons utilisés pour l’estimation de l’écart-type. Nous comparons la normalisation par lots étendue à la normalisation par lots classique et à la normalisation par groupes sur les jeux de données MNIST, CIFAR-10/100, STL-10 et ImageNet. Les expérimentations montrent que la normalisation par lots étendue atténue efficacement les limitations de la normalisation par lots avec de petits lots, tout en atteignant des performances proches de celles de la normalisation par lots avec de grands lots.