HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Comment la topologie des architectures neuronales influence-t-elle la propagation du gradient et les performances du modèle ?

{Radu Marculescu Guihong Li2 Kartikeya Bhardwa}

Comment la topologie des architectures neuronales influence-t-elle la propagation du gradient et les performances du modèle ?

Résumé

Les DenseNets introduisent des connexions skip de type concaténation, qui permettent d’atteindre des performances de précision de pointe sur plusieurs tâches de vision par ordinateur. Dans cet article, nous révélerons que la topologie de ces connexions skip de type concaténation est étroitement liée à la propagation des gradients, ce qui, à son tour, permet un comportement prévisible des performances en test des réseaux de neurones profonds (DNNs). À cette fin, nous proposons une nouvelle métrique, appelée NN-Mass, afin de quantifier efficacement la circulation de l’information à travers les DNNs. De plus, nous montrons empiriquement que NN-Mass s’applique également à d’autres types de connexions skip, par exemple aux ResNets, Wide-ResNets (WRNs) et MobileNets, qui reposent sur des connexions skip de type addition (c’est-à-dire des résidus ou des résidus inversés). Ainsi, tant pour les CNNs du type DenseNet que pour les ResNets/WRNs/MobileNets, notre métrique NN-Mass, fondée sur une base théorique solide, permet d’identifier des modèles présentant des précisions similaires, bien qu’ils diffèrent considérablement en taille ou en coût de calcul. Des expériences détaillées menées sur des jeux de données synthétiques et réels (par exemple, MNIST, CIFAR-10, CIFAR-100, ImageNet) fournissent des preuves étendues de nos observations. Enfin, l’équation explicite associée à notre NN-Mass nous permet de concevoir directement, dès l’initialisation, des DenseNets fortement compressées (pour CIFAR-10) et des MobileNets compressées (pour ImageNet), sans avoir recours à des phases d’entraînement ou de recherche coûteuses en temps.

Benchmarks

BenchmarkMéthodologieMétriques
neural-architecture-search-on-cifar-10NN-MASS- CIFAR-C
FLOPS: 1.2G
Parameters: 3.82M
Search Time (GPU days): 0
Top-1 Error Rate: 3.18%
neural-architecture-search-on-cifar-10NN-MASS- CIFAR-A
FLOPS: 1.95G
Parameters: 5.02M
Search Time (GPU days): 0
Top-1 Error Rate: 3.0%
neural-architecture-search-on-imagenetNN-MASS-B
Accuracy: 73.3
FLOPs: 393M
MACs: 393M
Params: 3.7M
Top-1 Error Rate: 26.7
neural-architecture-search-on-imagenetNN-MASS-A
Accuracy: 72.9
FLOPs: 200M
MACs: 200M
Params: 2.3M
Top-1 Error Rate: 27.1

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Comment la topologie des architectures neuronales influence-t-elle la propagation du gradient et les performances du modèle ? | Articles de recherche | HyperAI