il y a 3 mois

BANANAS : Optimisation Bayésienne avec des Architectures Neurales pour la Recherche d'Architectures Neurales

Colin White, Willie Neiswanger, Yash Savani

Résumé

Au cours des cinq dernières années, de nombreuses méthodes ont été envisagées pour la recherche d'architecture neuronale (NAS). L'optimisation bayésienne (BO), qui a longtemps connu un succès dans l'optimisation des hyperparamètres, s'est récemment imposée comme une stratégie particulièrement prometteuse pour la NAS lorsqu'elle est couplée à un prédicteur neuronal. Des travaux récents ont proposé différentes instanciations de ce cadre, par exemple en utilisant des réseaux neuronaux bayésiens ou des réseaux de convolution sur graphes comme modèle de prédiction dans le cadre de la BO. Toutefois, les analyses présentées dans ces publications se concentrent souvent sur l'algorithme NAS complet, ce qui rend difficile l'identification des composants individuels du cadre qui contribuent le plus à la performance optimale.Dans ce travail, nous proposons une analyse approfondie du cadre « BO + prédicteur neuronal » en identifiant cinq composants principaux : le codage des architectures, le prédicteur neuronal, la méthode de calibration de l’incertitude, la fonction d’acquisition et la stratégie d’optimisation de l’acquisition. Nous évaluons plusieurs méthodes différentes pour chacun de ces composants, et nous proposons également un nouveau schéma de codage basé sur les chemins pour les architectures neuronales, que nous montrons théoriquement et empiriquement échouer mieux que d'autres codages en termes d’échelle. En intégrant toutes nos analyses, nous développons un algorithme final appelé BANANAS, qui atteint des performances de pointe sur des espaces de recherche NAS. Nous respectons la check-list de recherche en NAS (Lindauer et Hutter, 2019) afin de favoriser les meilleures pratiques, et notre code est disponible à l’adresse suivante : https://github.com/naszilla/naszilla.