HyperAIHyperAI
il y a 2 mois

Recherche d'architecture neuronale avec optimisation bayésienne et transport optimal

Kirthevasan Kandasamy; Willie Neiswanger; Jeff Schneider; Barnabas Poczos; Eric Xing
Recherche d'architecture neuronale avec optimisation bayésienne et transport optimal
Résumé

L'optimisation bayésienne (BO) désigne une classe de méthodes pour l'optimisation globale d'une fonction $f$ qui n'est accessible que par des évaluations ponctuelles. Elle est généralement utilisée dans des contextes où l'évaluation de $f$ est coûteuse. Un cas d'utilisation courant de la BO en apprentissage automatique est la sélection de modèles, où il n'est pas possible de modéliser analytiquement les performances de généralisation d'un modèle statistique, et où nous recourons à des procédures d'entraînement et de validation bruyantes et coûteuses pour choisir le meilleur modèle. Les méthodes BO conventionnelles se sont concentrées sur les domaines euclidiens et catégoriels, ce qui, dans le contexte de la sélection de modèles, ne permet que l'ajustement des hyperparamètres scalaires des algorithmes d'apprentissage automatique. Cependant, avec l'essor croissant du deep learning, il y a une demande croissante pour ajuster les \emph{architectures} des réseaux neuronaux. Dans cette étude, nous développons NASBOT, un cadre d'optimisation bayésienne basé sur les processus gaussiens pour la recherche d'architecture neuronale. Pour y parvenir, nous élaborons une métrique de distance dans l'espace des architectures de réseaux neuronaux qui peut être calculée efficacement grâce à un programme de transport optimal. Cette distance pourrait également intéresser indépendamment la communauté du deep learning car elle pourrait trouver des applications en dehors de la BO. Nous démontrons que NASBOT surpassent les autres alternatives pour la recherche d'architecture dans plusieurs tâches de sélection de modèles basées sur la validation croisée, tant pour les perceptrons multicouches que pour les réseaux neuronaux convolutifs.