il y a 17 jours

BaLeNAS : Recherche d'architecture différentiable via la règle d'apprentissage bayésien

Miao Zhang, Jilin Hu, Steven Su, Shirui Pan, Xiaojun Chang, Bin Yang, Gholamreza Haffari

Résumé

La recherche d'architecture différentiable (DARTS) a suscité un intérêt considérable ces dernières années, principalement en raison de sa capacité à réduire de manière significative les coûts computationnels grâce au partage de poids et à la relaxation continue. Toutefois, des travaux récents ont montré que les méthodes existantes de NAS différentiable peinent à surpasser les approches baselines naïves, conduisant à des architectures dégradées au fur et à mesure de la recherche. Au lieu d'optimiser directement les paramètres d'architecture, cet article reformule la recherche d'architecture neuronale comme un problème d'apprentissage de distribution en relâchant les poids d'architecture vers des distributions gaussiennes. En exploitant l'inférence variationnelle à gradient naturel (NGVI), la distribution d'architecture peut être facilement optimisée à partir de codebases existants, sans augmentation de la consommation mémoire ou des coûts computationnels. Nous démontrons comment la NAS différentiable bénéficie des principes bayésiens, en améliorant l'exploration et en renforçant la stabilité. Les résultats expérimentaux sur les jeux de données de référence NAS-Bench-201 et NAS-Bench-1shot1 confirment les améliorations significatives apportées par le cadre proposé. En outre, au lieu de simplement appliquer l'opérateur argmax sur les paramètres appris, nous exploitons davantage des proxies sans entraînement récemment proposés dans le cadre de la NAS pour sélectionner l'architecture optimale parmi un ensemble d'architectures tirées de la distribution optimisée, obtenant ainsi des résultats de pointe sur les benchmarks NAS-Bench-201 et NAS-Bench-1shot1. Notre meilleure architecture dans l'espace de recherche DARTS atteint également des erreurs de test compétitives de 2,37 %, 15,72 % et 24,2 % respectivement sur les jeux de données CIFAR-10, CIFAR-100 et ImageNet.