Recherche d'architecture neuronique sans entraînement

Le temps et les efforts nécessaires à la conception manuelle des réseaux de neurones profonds sont considérables. Cela a conduit au développement de techniques de recherche d'architecture de réseaux neuronaux (Neural Architecture Search, NAS) afin d'automatiser ce processus. Toutefois, les algorithmes de NAS sont généralement lents et coûteux, car ils doivent entraîner un grand nombre de réseaux candidats pour guider la recherche. Cette contrainte pourrait être atténuée si l'on pouvait prédire partiellement la précision d'un réseau après entraînement à partir de son état initial. Dans ce travail, nous examinons la corrélation des activations entre différents échantillons dans des réseaux non entraînés, et proposons une justification théorique montrant que cette mesure peut servir d'indicateur pertinent de la performance réelle du réseau après entraînement. Nous intégrons cette mesure dans un algorithme simple permettant de rechercher des architectures puissantes sans entraînement, en quelques secondes sur une seule GPU, et validons son efficacité sur les benchmarks NAS-Bench-101, NAS-Bench-201, NATS-Bench ainsi que sur des espaces de conception de réseaux. Notre approche peut être facilement combinée avec des méthodes de recherche plus coûteuses ; nous étudions une adaptation simple de la recherche évolutive régularisée. Le code permettant de reproduire nos expériences est disponible à l'adresse suivante : https://github.com/BayesWatch/nas-without-training.