Comment la topologie des architectures neuronales influence-t-elle la propagation du gradient et les performances du modèle ?

Les DenseNets introduisent des connexions skip de type concaténation, qui permettent d’atteindre des performances de précision de pointe sur plusieurs tâches de vision par ordinateur. Dans cet article, nous révélerons que la topologie de ces connexions skip de type concaténation est étroitement liée à la propagation des gradients, ce qui, à son tour, permet un comportement prévisible des performances en test des réseaux de neurones profonds (DNNs). À cette fin, nous proposons une nouvelle métrique, appelée NN-Mass, afin de quantifier efficacement la circulation de l’information à travers les DNNs. De plus, nous montrons empiriquement que NN-Mass s’applique également à d’autres types de connexions skip, par exemple aux ResNets, Wide-ResNets (WRNs) et MobileNets, qui reposent sur des connexions skip de type addition (c’est-à-dire des résidus ou des résidus inversés). Ainsi, tant pour les CNNs du type DenseNet que pour les ResNets/WRNs/MobileNets, notre métrique NN-Mass, fondée sur une base théorique solide, permet d’identifier des modèles présentant des précisions similaires, bien qu’ils diffèrent considérablement en taille ou en coût de calcul. Des expériences détaillées menées sur des jeux de données synthétiques et réels (par exemple, MNIST, CIFAR-10, CIFAR-100, ImageNet) fournissent des preuves étendues de nos observations. Enfin, l’équation explicite associée à notre NN-Mass nous permet de concevoir directement, dès l’initialisation, des DenseNets fortement compressées (pour CIFAR-10) et des MobileNets compressées (pour ImageNet), sans avoir recours à des phases d’entraînement ou de recherche coûteuses en temps.