il y a un mois

Réduction des filtres pour des ConvNets efficaces

Hao Li; Asim Kadav; Igor Durdanovic; Hanan Samet; Hans Peter Graf

Résumé

Le succès des réseaux de neurones convolutifs (CNNs) dans diverses applications s'accompagne d'une augmentation significative des coûts de calcul et de stockage des paramètres. Les efforts récents visant à réduire ces surcoûts impliquent l'élagage et la compression des poids de différentes couches sans nuire à la précision initiale. Cependant, l'élagage basé sur la magnitude des poids réduit un nombre important de paramètres des couches entièrement connectées et peut ne pas suffisamment diminuer les coûts de calcul dans les couches convolutionnelles en raison de la parcimonie irrégulière dans les réseaux élagués. Nous présentons une méthode d'accélération pour les CNNs, où nous éliminons les filtres identifiés comme ayant un faible impact sur la précision de sortie. En supprimant des filtres entiers du réseau ainsi que leurs cartes de caractéristiques associées, les coûts de calcul sont considérablement réduits. Contrairement à l'élagage des poids, cette approche ne génère pas de motifs de connectivité parcimonieux. Par conséquent, elle n'a pas besoin du soutien de bibliothèques de convolution parcimonieuse et peut fonctionner avec les bibliothèques BLAS existantes pour les multiplications matricielles denses. Nous montrons que même des techniques simples d'élagage de filtres peuvent réduire les coûts d'inférence jusqu'à 34 % pour VGG-16 et jusqu'à 38 % pour ResNet-110 sur CIFAR10 tout en retrouvant une précision proche de celle initiale grâce au réentraînement des réseaux.