AlphaX : Exploration des architectures neuronales avec les réseaux de neurones profonds et la recherche arborescente de Monte Carlo

La recherche d'architecture neuronale (Neural Architecture Search, NAS) a connu un grand succès dans l'automatisation de la conception des réseaux de neurones. Cependant, la quantité prohibitivement importante de calculs nécessaires aux méthodes actuelles de NAS nécessite des investigations supplémentaires pour améliorer l'efficacité échantillonnale et le coût d'évaluation du réseau afin d'obtenir de meilleurs résultats en moins de temps. Dans cet article, nous présentons un nouvel agent NAS basé sur une recherche arborescente Monte Carlo (Monte Carlo Tree Search, MCTS) à grande échelle, nommé AlphaX, pour aborder ces deux aspects.AlphaX améliore l'efficacité de la recherche en équilibrant adaptativement l'exploration et l'exploitation au niveau des états, et grâce à un réseau neuronal profond métiers (Meta-Deep Neural Network, DNN) pour prédire les précisions des réseaux et orienter la recherche vers une région prometteuse. Pour amortir le coût d'évaluation du réseau, AlphaX accélère les déroulements MCTS grâce à une conception distribuée et réduit le nombre d'époques nécessaires pour évaluer un réseau en utilisant l'apprentissage par transfert guidé par la structure arborescente de MCTS.En 12 jours sur GPU et avec 1000 échantillons, AlphaX a trouvé une architecture atteignant 97,84 % de précision top-1 sur CIFAR-10 et 75,5 % de précision top-1 sur ImageNet, surpassant les méthodes NAS de pointe (SOTA) tant en termes de précision que d'efficacité échantillonnale. Nous avons également évalué AlphaX sur NASBench-101, un jeu de données NAS à grande échelle ; AlphaX est 3 fois plus efficace en termes d'échantillonnage que la recherche aléatoire (Random Search) et 2,8 fois plus efficace que l'évolution régularisée (Regularized Evolution) pour trouver l'optimum global.Enfin, nous montrons que l'architecture recherchée améliore diverses applications visuelles allant du transfert stylistique neuronal (Neural Style Transfer) à la légendage d'image (Image Captioning) et à la détection d'objets (Object Detection).