HyperAIHyperAI
il y a 2 mois

Prédiction de paramètres pour des architectures profondes inédites

Boris Knyazev; Michal Drozdzal; Graham W. Taylor; Adriana Romero-Soriano
Prédiction de paramètres pour des architectures profondes inédites
Résumé

L'apprentissage profond a connu un grand succès dans l'automatisation de la conception des caractéristiques dans les pipelines d'apprentissage automatique. Cependant, les algorithmes optimisant les paramètres des réseaux de neurones restent largement conçus manuellement et sont peu efficaces sur le plan computationnel. Nous étudions si nous pouvons utiliser l'apprentissage profond pour prédire directement ces paramètres en exploitant les connaissances acquises lors de l'entraînement d'autres réseaux. Nous introduisons un ensemble de données à grande échelle comprenant divers graphes computationnels de architectures neuronales - DeepNets-1M - et nous l'utilisons pour explorer la prédiction des paramètres sur CIFAR-10 et ImageNet. En tirant parti des avancées dans les réseaux de neurones sur graphes, nous proposons une hyper-réseau capable de prédire des paramètres performants en une seule passe avant, ce qui prend une fraction de seconde même sur un processeur CPU. Le modèle proposé obtient des performances surprenantes sur des réseaux inconnus et diversifiés. Par exemple, il est capable de prédire tous les 24 millions de paramètres d'un ResNet-50 avec une précision de 60 % sur CIFAR-10. Sur ImageNet, la précision top-5 de certains de nos réseaux approche 50 %. Notre tâche, ainsi que notre modèle et nos résultats, peuvent potentiellement conduire à un nouveau paradigme plus efficace sur le plan computationnel pour l'entraînement des réseaux. Notre modèle apprend également une représentation robuste des architectures neuronales, facilitant leur analyse.

Prédiction de paramètres pour des architectures profondes inédites | Articles de recherche récents | HyperAI