HyperAIHyperAI
il y a 17 jours

Recherche d'architecture neuronale supervisée par blocs avec distillation de connaissances

Changlin Li, Jiefeng Peng, Liuchun Yuan, Guangrun Wang, Xiaodan Liang, Liang Lin, Xiaojun Chang
Recherche d'architecture neuronale supervisée par blocs avec distillation de connaissances
Résumé

La Recherche d'Architecture Neuropétrie (NAS), visant à concevoir automatiquement des architectures de réseaux par des machines, est promise à révolutionner le domaine de l'apprentissage automatique. Malgré ces attentes élevées, l'efficacité et l'efficience des solutions NAS existantes restent incertaines, certaines études récentes allant jusqu'à affirmer que de nombreuses approches actuelles de NAS ne surpassent pas le simple tirage aléatoire d'architectures. L'incompétence des solutions NAS pourrait être attribuée à une évaluation inexacte des architectures. En effet, afin d'accélérer le processus, les travaux récents ont proposé d'entraîner de manière sous-optimale plusieurs architectures candidates en parallèle dans un grand espace de recherche en partageant les paramètres du réseau ; cette approche a toutefois conduit à des évaluations erronées des architectures, aggravant ainsi l'inefficacité de la NAS.Dans ce travail, nous proposons de modulariser l'espace de recherche de la NAS en blocs afin de garantir que les architectures candidates potentielles soient entièrement entraînées ; cette approche réduit le décalage de représentation causé par le partage de paramètres et permet une évaluation correcte des candidats. Grâce à la recherche par blocs, nous pouvons également évaluer toutes les architectures candidates au sein d’un même bloc. De plus, nous constatons que les connaissances d’un modèle neuronal résident non seulement dans ses paramètres, mais également dans son architecture. Par conséquent, nous proposons de distiller les connaissances architecturales (dites « ADN neuronal ») à partir d’un modèle enseignant afin de superviser notre recherche d’architecture par blocs, ce qui améliore significativement l’efficacité de la NAS. Notons de manière remarquable que la capacité de l’architecture recherchée dépasse celle du modèle enseignant, démontrant ainsi la faisabilité et la scalabilité de notre méthode. Enfin, notre approche atteint une précision top-1 de 78,4 % sur ImageNet dans un contexte mobile, soit une amélioration de 2,1 % par rapport à EfficientNet-B0. Toutes nos architectures recherchées, ainsi que le code d’évaluation, sont disponibles en ligne.