AlphaNet : Amélioration de l'entraînement des supernets via la divergence Alpha

La recherche d'architecture neuronale à partage de poids (NAS) est une technique efficace pour automatiser la conception d'architectures neuroniques performantes. La NAS à partage de poids construit un supréseau qui intègre toutes les architectures comme ses sous-réseaux, et entraîne conjointement le supréseau et ses sous-réseaux. Le succès de la NAS à partage de poids repose fortement sur la distillation des connaissances du supréseau vers les sous-réseaux. Toutefois, nous constatons que la divergence de distillation largement utilisée, à savoir la divergence de Kullback-Leibler (KL), peut entraîner des sous-réseaux élèves qui surestiment ou sous-estiment l'incertitude du modèle enseignant (supréseau), conduisant à une performance inférieure des sous-réseaux. Dans ce travail, nous proposons d'améliorer l'entraînement du supréseau en utilisant une divergence alpha plus générale. En sélectionnant de manière adaptative la divergence alpha, nous parvenons simultanément à éviter la surestimation ou la sous-estimation de l'incertitude du modèle enseignant. Nous appliquons l'entraînement basé sur la divergence alpha aux réseaux neuroniques élastiques (slimmable neural networks) ainsi qu'à la NAS à partage de poids, et démontrons des améliorations significatives. Plus précisément, la famille de modèles que nous avons découverte, AlphaNet, surpasse les modèles d'état de l'art sur une large gamme de régimes de FLOPs, y compris BigNAS, les réseaux Once-for-All et AttentiveNAS. Nous atteignons une précision top-1 sur ImageNet de 80,0 % avec seulement 444 M FLOPs. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/facebookresearch/AlphaNet.