Recherche efficace d'architecture neuronale par partage de paramètres

Nous proposons une recherche efficace d'architecture neuronale (ENAS), une approche rapide et peu coûteuse pour la conception automatique de modèles. ENAS construit un grand graphe computationnel, dans lequel chaque sous-graphe représente une architecture de réseau neuronal, forçant ainsi toutes les architectures à partager leurs paramètres. Un contrôleur est entraîné à l’aide d’un gradient de politique afin de rechercher un sous-graphe maximisant la récompense attendue sur un ensemble de validation. Parallèlement, un modèle correspondant au sous-graphe sélectionné est entraîné pour minimiser une perte croisée canonique. Le partage des paramètres entre les modèles enfants permet à ENAS d’obtenir de fortes performances empiriques, tout en nécessitant bien moins d’heures de calcul sur GPU que les approches existantes de conception automatique de modèles, et notamment 1 000 fois moins coûteux que la recherche standard d’architecture neuronale (NAS). Sur Penn Treebank, ENAS découvre une nouvelle architecture atteignant une perplexité de test de 56,3, au niveau de l’état de l’art actuel parmi toutes les méthodes ne nécessitant pas de traitement post-entraînement. Sur CIFAR-10, ENAS trouve une nouvelle architecture réalisant une erreur de test de 2,89 %, comparables à l’erreur de 2,65 % obtenue par NASNet (Zoph et al., 2018).