HyperAIHyperAI
il y a 18 jours

Recherche d'architecture neuronique sur ImageNet en quatre heures de GPU : une perspective inspirée par la théorie

Wuyang Chen, Xinyu Gong, Zhangyang Wang
Recherche d'architecture neuronique sur ImageNet en quatre heures de GPU : une perspective inspirée par la théorie
Résumé

La recherche d'architecture neuronale (Neural Architecture Search, NAS) a connu un essor considérable afin d'automatiser la découverte des architectures de réseaux de neurones performantes. Les approches actuelles nécessitent un entraînement intensif du supernet ou une évaluation architecturale très coûteuse, entraînant une consommation massive de ressources et souvent un biais de recherche dû à un entraînement tronqué ou à des approximations. Peut-on sélectionner les meilleures architectures neuronales sans aucun entraînement et éliminer une part importante des coûts liés à la recherche ? Nous répondons affirmativement en proposant un cadre novateur appelé recherche d'architecture neuronale sans entraînement (TE-NAS). TE-NAS classe les architectures en analysant le spectre du noyau tangent neuronal (NTK) et le nombre de régions linéaires dans l'espace d'entrée. Ces deux mesures, inspirées par les avancées récentes en théorie des réseaux profonds, peuvent être calculées sans entraînement ni étiquettes. Nous démontrons que : (1) ces deux indicateurs reflètent la capacité d'entraînement et l'expressivité d'un réseau neuronal ; (2) ils présentent une forte corrélation avec la précision sur les données de test. Par ailleurs, nous avons conçu un mécanisme de NAS basé sur la suppression (pruning) pour atteindre un compromis plus flexible et supérieur entre l'entraînable et l'expressivité durant la recherche. Sur les espaces de recherche NAS-Bench-201 et DARTS, TE-NAS réalise une recherche de haute qualité en n'occupant que 0,5 heure GPU (sur une seule carte 1080Ti) pour CIFAR-10 et 4 heures GPU pour ImageNet. Nous espérons que ce travail incitera davantage de recherches visant à relier les résultats théoriques sur les réseaux profonds aux applications pratiques en NAS. Le code est disponible à l'adresse suivante : https://github.com/VITA-Group/TENAS.