Sur le nombre idéal de groupes pour une propagation de gradient isométrique

Récemment, diverses couches de normalisation ont été proposées afin de stabiliser l'entraînement des réseaux neuronaux profonds. Parmi celles-ci, la normalisation par groupes constitue une généralisation de la normalisation par couche et de la normalisation par instance, en permettant une certaine liberté quant au nombre de groupes utilisés. Toutefois, pour déterminer le nombre optimal de groupes, une optimisation hyperparamétrique basée sur des essais-erreurs s'avère nécessaire, des expérimentations qui s'avèrent coûteuses en temps. Dans cette étude, nous proposons une méthode rationnelle pour fixer le nombre de groupes. Tout d'abord, nous observons que ce nombre influence le comportement du gradient au sein de la couche de normalisation par groupes. À partir de cette observation, nous dérivons un nombre idéal de groupes, qui permet de calibrer l'échelle du gradient afin de favoriser l'optimisation par descente de gradient. Le nombre de groupes ainsi proposé est fondé théoriquement, sensible à l'architecture du réseau, et permet d’attribuer de manière appropriée une valeur adaptée à chaque couche de manière progressive. La méthode proposée a démontré une performance améliorée par rapport aux approches existantes sur de nombreuses architectures de réseaux neuronaux, tâches et jeux de données.