$Λ$-DARTS : Atténuation de l'effondrement des performances par une harmonisation du choix des opérations entre les cellules

La recherche d'architecture neuronale différentiable (DARTS) est une méthode populaire pour la recherche d'architecture neuronale (NAS), qui effectue une recherche de cellule en exploitant une relaxation continue afin d'améliorer l'efficacité de la recherche par optimisation basée sur les gradients. Le principal défaut de DARTS réside dans le phénomène de « collapse de performance », où l'architecture découverte présente une dégradation progressive de sa qualité au cours de la recherche. Ce problème est devenu un sujet central de recherche, avec de nombreuses approches visant à y remédier par des techniques de régularisation ou des modifications fondamentales de DARTS. Toutefois, le cadre de partage de poids utilisé pour la recherche de cellule dans DARTS, ainsi que la convergence des paramètres d'architecture, n'ont pas encore été analysés de manière approfondie. Dans cet article, nous proposons une analyse théorique et empirique complète et originale de DARTS ainsi que de son point de convergence. Nous démontrons que DARTS souffre d'un défaut structurel spécifique, dû à son cadre de partage de poids, qui limite sa convergence aux points de saturation de la fonction softmax. Ce point de convergence accorde un avantage injuste aux couches plus proches de la sortie lors du choix de l'architecture optimale, entraînant ainsi le collapse de performance. Nous proposons ensuite deux nouveaux termes de régularisation visant à prévenir ce collapse en harmonisant le choix des opérations grâce à une alignement des gradients entre les couches. Les résultats expérimentaux sur six espaces de recherche différents et trois jeux de données distincts montrent que notre méthode ($Λ$-DARTS) prévient effectivement le collapse de performance, validant ainsi notre analyse théorique et la pertinence de la solution proposée.