Normalisation itérative : Au-delà de la standardisation vers un blanchiment efficace

La normalisation par lots (Batch Normalization, BN) est largement utilisée pour accélérer l'entraînement des réseaux de neurones et améliorer leur capacité de généralisation en effectuant une standardisation au sein des mini-lots. La normalisation par lots décorrélée (Decorrelated Batch Normalization, DBN) renforce encore cette efficacité grâce à la blanchiment. Cependant, le DBN repose fortement sur une taille de lot importante ou sur une décomposition en valeurs propres qui souffre d'une faible efficacité sur les GPU. Nous proposons la normalisation itérative (Iterative Normalization, IterNorm), qui utilise des itérations de Newton pour un blanchiment beaucoup plus efficace tout en évitant la décomposition en valeurs propres. De plus, nous menons une étude approfondie pour montrer que l'IterNorm offre un meilleur compromis entre l'optimisation et la généralisation, avec un soutien théorique et expérimental. À cette fin, nous introduisons exclusivement le trouble de normalisation stochastique (Stochastic Normalization Disturbance, SND), qui mesure l'incertitude stochastique inhérente des échantillons lorsqu'ils sont soumis à des opérations de normalisation. Grâce au SND, nous fournissons des explications naturelles à plusieurs phénomènes du point de vue de l'optimisation, par exemple pourquoi le blanchiment par groupes du DBN surpasse généralement le blanchiment complet et pourquoi la précision du BN se dégrade avec des tailles de lots réduites. Nous démontrons les performances améliorées de manière constante de l'IterNorm grâce à des expériences étendues sur CIFAR-10 et ImageNet comparées au BN et au DBN.