Quantification et élagage pour la compression et la régularisation des réseaux de neurones

Les réseaux de neurones profonds sont généralement trop coûteux en termes de calcul pour être exécutés en temps réel sur du matériel grand public ou des dispositifs à faible puissance. Dans cet article, nous étudions la réduction des exigences en calcul et en mémoire des réseaux de neurones grâce à la suppression de connexions (pruning) et à la quantification. Nous évaluons leur efficacité sur de grands réseaux tels qu’AlexNet, en les comparant à des architectures récentes compactes : ShuffleNet et MobileNet. Nos résultats montrent que la combinaison de la pruning et de la quantification permet de réduire la taille de ces réseaux à moins de la moitié de leur taille initiale, tout en améliorant significativement leur efficacité, notamment sur MobileNet où une accélération de 7 fois est observée. Nous démontrons également que la pruning, en plus de réduire le nombre de paramètres d’un réseau, peut contribuer à corriger le surajustement (overfitting).