Algorithmes de gradient sensibles à la géométrie pour la recherche d'architecture de réseaux neuronaux

Les méthodes les plus récentes en matière de recherche d'architecture neuronale (NAS) exploitent l'optimisation basée sur les gradients en relâchant le problème pour le transformer en une optimisation continue sur les architectures et les poids partagés, un processus bruyant dont la compréhension reste limitée. Nous proposons d'étudier la minimisation de risque empirique à un seul niveau afin de mieux comprendre la NAS avec partage de poids, réduisant ainsi la conception des méthodes NAS à la mise au point d'optimalisateurs et de régularisateurs capables d'obtenir rapidement des solutions de haute qualité pour ce problème. En s'appuyant sur la théorie de la descente miroir, nous présentons un cadre géométriquement conscient qui exploite la structure sous-jacente de cette optimisation afin de produire des paramètres architecturaux creux, menant à des algorithmes nouveaux et simples, bénéficiant de garanties de convergence rapide et atteignant des performances de pointe sur les derniers benchmarks de NAS en vision par ordinateur. Notamment, nous surpassons les meilleurs résultats publiés pour CIFAR et ImageNet, sur à la fois l'espace de recherche DARTS et NAS-Bench201 ; sur ce dernier, nous atteignons des performances quasi-optimales-oracles sur CIFAR-10 et CIFAR-100. Collectivement, notre théorie et nos expériences démontrent une approche rigoureuse pour concevoir conjointement des optimalisateurs et des relaxations continues des espaces de recherche discrets en NAS.