HyperAIHyperAI
il y a 2 mois

Recherche efficace d'architecture neuronale par partage de paramètres

Hieu Pham; Melody Y. Guan; Barret Zoph; Quoc V. Le; Jeff Dean
Recherche efficace d'architecture neuronale par partage de paramètres
Résumé

Nous proposons la Recherche Efficace d'Architecture de Réseaux Neuronaux (ENAS), une approche rapide et peu coûteuse pour le design automatique de modèles. Dans ENAS, un contrôleur apprend à découvrir des architectures de réseaux neuronaux en recherchant un sous-graphe optimal au sein d'un grand graphe computationnel. Le contrôleur est formé par gradient de politique pour sélectionner un sous-graphe qui maximise la récompense attendue sur l'ensemble de validation. Parallèlement, le modèle correspondant au sous-graphe sélectionné est formé pour minimiser une perte d'entropie croisée canonique. Grâce au partage des paramètres entre les modèles enfants, ENAS est rapide : il offre des performances empiriques solides en utilisant beaucoup moins d'heures GPU que toutes les approches existantes de design automatique de modèles, et notamment, 1000 fois moins coûteux que la recherche standard d'architecture de réseaux neuronaux (Neural Architecture Search). Sur le jeu de données Penn Treebank, ENAS découvre une nouvelle architecture qui atteint une perplexité de test de 55,8, établissant un nouveau niveau d'état de l'art parmi toutes les méthodes sans traitement post-formation. Sur le jeu de données CIFAR-10, ENAS conçoit des nouvelles architectures qui atteignent une erreur de test de 2,89 %, ce qui est comparable à NASNet (Zoph et al., 2018), dont l'erreur de test est de 2,65 %.