HyperAIHyperAI
il y a 2 mois

Réseaux de neurones convolutifs profondément appris

Zichao Yang; Marcin Moczulski; Misha Denil; Nando de Freitas; Alex Smola; Le Song; Ziyu Wang
Réseaux de neurones convolutifs profondément appris
Résumé

Les couches entièrement connectées d'un réseau neuronal convolutif profond contiennent généralement plus de 90 % des paramètres du réseau et consomment la majorité de la mémoire nécessaire pour stocker ces paramètres. Réduire le nombre de paramètres tout en préservant essentiellement les mêmes performances prédictives est d'une importance cruciale pour faire fonctionner des réseaux neuronaux profonds dans des environnements à mémoire limitée, tels que les GPU ou les appareils embarqués.Dans cet article, nous montrons comment les méthodes à noyaux, en particulier une seule couche Fastfood, peuvent être utilisées pour remplacer toutes les couches entièrement connectées d'un réseau neuronal convolutif profond. Cette nouvelle couche Fastfood est également formable de bout en bout conjointement avec les couches convolutionnelles, ce qui nous permet de les combiner dans une nouvelle architecture nommée réseaux neuronaux convolutifs profonds « deep fried » (profondément frits), réduisant considérablement l'empreinte mémoire des réseaux entraînés sur MNIST et ImageNet sans perte de performance prédictive.