DrNAS : Recherche d'Architecture Neurale Dirichlet

Cette étude propose une nouvelle méthode de recherche d'architecture différentiable en la reformulant comme un problème d'apprentissage de distribution. Nous considérons les poids de mélange d'architecture continûment relâchés comme des variables aléatoires, modélisées par une distribution Dirichlet. Grâce aux dérivées pathwise récemment développées, les paramètres de la distribution Dirichlet peuvent être facilement optimisés à l’aide d’un optimiseur basé sur le gradient, de manière end-to-end. Cette formulation améliore la capacité de généralisation et introduit une stochasticité qui favorise naturellement l’exploration de l’espace de recherche. En outre, afin de réduire la consommation mémoire importante inhérente à la recherche d’architecture différentiable, nous proposons un schéma d’apprentissage progressif simple mais efficace, permettant de réaliser la recherche directement sur des tâches à grande échelle, tout en éliminant l’écart entre les phases de recherche et d’évaluation. Des expériences étendues démontrent l’efficacité de notre méthode : nous obtenons un taux d’erreur de test de 2,46 % sur CIFAR-10 et de 23,7 % sur ImageNet dans un cadre mobile. Sur NAS-Bench-201, nous atteignons également des résultats de pointe sur les trois jeux de données, tout en offrant des perspectives pour la conception efficace d’algorithmes de recherche d’architecture neuronale.