il y a 17 jours

Propriétés de généralisation de la NAS sous la recherche d'activation et de connexion skip

Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher

Résumé

La Recherche d'Architecture Neurale (NAS) a permis la découverte automatique d'architectures neurales de pointe. Malgré les progrès réalisés grâce à la NAS, peu d'attention a été accordée jusqu'à présent aux garanties théoriques associées à cette approche. Dans ce travail, nous étudions les propriétés de généralisation de la NAS dans un cadre unifié permettant la recherche simultanée de connexions de saut (skip connections) à plusieurs couches (deep) et de fonctions d'activation. À cette fin, nous établissons des bornes inférieures (et supérieures) de la plus petite valeur propre du noyau tangent neuronal (NTK) dans les régimes à largeur finie et infinie, en considérant un espace de recherche spécifique incluant des fonctions d'activation mixtes, des réseaux de neurones entièrement connectés ainsi que des réseaux résiduels. Nous utilisons la plus petite valeur propre pour établir des bornes d'erreur de généralisation dans le cadre de l'entraînement par descente de gradient stochastique. De manière importante, nous montrons théoriquement et expérimentalement comment les résultats obtenus peuvent guider la NAS dans le choix des architectures les plus performantes, même en l'absence d'entraînement, conduisant ainsi à un algorithme sans entraînement fondé sur notre théorie. Par conséquent, notre validation numérique éclaire la conception de méthodes de NAS efficaces sur le plan computationnel. L'analyse présentée est non triviale en raison de l'interaction complexe entre diverses architectures et fonctions d'activation dans le cadre unifié, et revêt un intérêt propre en fournissant une borne inférieure de la plus petite valeur propre du NTK dans la théorie des réseaux de neurones profonds.