HyperAIHyperAI
il y a 17 jours

Recherche d'architecture neuronale One-Shot via un réseau de modèle auto-évalué

Xuanyi Dong, Yi Yang
Recherche d'architecture neuronale One-Shot via un réseau de modèle auto-évalué
Résumé

La recherche d'architecture neuronique (NAS) vise à automatiser le processus de recherche d'architecture, à la place de recourir à une conception manuelle. Bien que les approches récentes de NAS permettent d'achever la recherche en quelques jours, une phase d'entraînement longue reste nécessaire pour chaque candidate d'architecture afin d'obtenir les paramètres permettant une évaluation précise. Récemment, des méthodes NAS « one-shot » ont été proposées afin de réduire considérablement le processus d'entraînement fastidieux en partageant les paramètres entre les différentes candidates. Ainsi, les paramètres de chaque candidate peuvent être extraits directement à partir des paramètres partagés, sans avoir à les entraîner de zéro. Toutefois, ces méthodes ne permettent pas de prédire à l'avance la performance d'une candidate, si bien que les candidates à évaluer sont échantillonnées aléatoirement, et la meilleure candidate est considérée comme celle ayant le meilleur score (top-1). Dans cet article, nous proposons un modèle de réseau à modèle auto-évalué (SETN) afin d'améliorer la qualité des candidates soumises à l'évaluation, augmentant ainsi la probabilité de couvrir des architectures compétitives. Le SETN se compose de deux composants : (1) un évaluateur, qui apprend à estimer la probabilité qu'une architecture individuelle présente une perte de validation plus faible ; les candidates à évaluer peuvent donc être sélectionnées de manière ciblée en fonction de cette estimation. (2) un réseau modèle, qui partage les paramètres entre toutes les candidates, permettant ainsi de réduire le coût d'entraînement des architectures générées. Dans nos expériences, l'architecture découverte par le SETN atteint des performances de pointe sur les benchmarks CIFAR et ImageNet, avec un coût computationnel comparable à celui des méthodes existantes. Le code est disponible publiquement sur GitHub : https://github.com/D-X-Y/AutoDL-Projects.

Recherche d'architecture neuronale One-Shot via un réseau de modèle auto-évalué | Articles de recherche récents | HyperAI