KNAS : Recherche d'Architectures Neurales Vertes

De nombreuses solutions existantes de recherche d’architecture neuronale (NAS) reposent sur l’entraînement sur tâche pour évaluer les architectures, ce qui nécessite des ressources computationnelles considérables. Étant donné que ces calculs engendrent une empreinte carbone importante, ce papier vise à explorer une approche NAS « verte » (c’est-à-dire respectueuse de l’environnement) capable d’évaluer les architectures sans recourir à l’entraînement. Intuitivement, les gradients induits par l’architecture elle-même déterminent directement les résultats de convergence et de généralisation. Cette observation motive notre proposition de l’hypothèse du noyau de gradient : les gradients peuvent servir de proxy grossier de l’entraînement sur tâche pour évaluer des réseaux aléatoirement initialisés. Pour soutenir cette hypothèse, nous menons une analyse théorique et identifions un noyau de gradient pratique présentant une bonne corrélation avec la perte d’entraînement et les performances sur validation. À partir de cette hypothèse, nous proposons une nouvelle méthode de recherche d’architecture basée sur les noyaux, appelée KNAS. Les expérimentations montrent que KNAS atteint des résultats compétitifs, avec un temps de recherche réduit de plusieurs ordres de grandeur par rapport aux paradigmes classiques « entraîner puis tester » sur des tâches de classification d’images. En outre, le coût de recherche extrêmement faible permet une large application de cette méthode. Le réseau recherché dépasse également les performances du modèle de référence robuste RoBERTA-large sur deux tâches de classification de texte. Le code est disponible à l’adresse suivante : \url{https://github.com/Jingjing-NLP/KNAS}.