iDARTS : Recherche d'architecture différentiable avec des gradients implicites stochastiques

\textit{Differentiable ARchiTecture Search} (DARTS) est récemment devenu le standard dominant dans le domaine de la recherche d'architecture de réseaux de neurones (NAS) en raison de son efficacité et de sa simplicité. Grâce à une optimisation bi-niveau basée sur les gradients, DARTS optimise de manière itérative les poids du modèle interne et les paramètres d'architecture externes au sein d'un supernet partageant les poids. Un enjeu clé pour la scalabilité et la qualité des architectures apprises réside dans la nécessité de différencier par rapport à l'optimisation de la boucle interne. Bien que de nombreux travaux aient exploré plusieurs facteurs potentiellement critiques dans DARTS, l'attention portée au gradient d'architecture, également appelé hypergradient, reste limitée. Dans ce papier, nous abordons le calcul de l'hypergradient dans DARTS à l’aide du théorème de la fonction implicite, ce qui permet de le rendre dépendant uniquement de la solution obtenue à l’issue de l’optimisation de la boucle interne, et indépendant du chemin d’optimisation suivi. Afin de réduire davantage les coûts computationnels, nous proposons une approximation stochastique de l’hypergradient adaptée aux méthodes de NAS différentiables, et démontrons théoriquement que l’optimisation de l’architecture par la méthode proposée, nommée iDARTS, converge vers un point stationnaire. Des expériences approfondies menées sur deux espaces de recherche standards de NAS ainsi que sur un espace de recherche commun confirment l’efficacité de notre approche. Les architectures apprises par iDARTS surpassent significativement, avec une marge importante, celles obtenues par les méthodes de référence.