C’est tout dans la tête : la distillation de connaissances sur les représentations par partage de classificateur

La distillation de représentations vise à transférer une information riche d’un modèle à un autre. Les approches courantes de distillation de représentations se concentrent principalement sur la minimisation directe des métriques de distance entre les vecteurs d’encodage des modèles. Toutefois, de telles méthodes directes peuvent être limitées dans le transfert des dépendances d’ordre supérieur inhérentes aux vecteurs de représentation, ou dans la gestion de l’écart de capacité entre les modèles enseignant et étudiant. En outre, dans la distillation classique, l’enseignant est entraîné sans tenir compte des caractéristiques ni de la capacité de l’étudiant. Dans ce papier, nous explorons deux mécanismes pour améliorer la distillation de représentations en exploitant le partage de classificateur entre l’enseignant et l’étudiant. Nous étudions d’abord un schéma simple où le classificateur de l’enseignant est connecté au squelette de l’étudiant, agissant comme une tête de classification supplémentaire. Ensuite, nous proposons un mécanisme conscient de l’étudiant, qui consiste à adapter le modèle enseignant à un étudiant à capacité limitée en entraînant l’enseignant avec une tête temporaire d’étudiant. Nous analysons et comparons ces deux mécanismes, et démontrons leur efficacité sur diverses bases de données et tâches, notamment la classification d’images, la classification fine-grainée et la vérification faciale. En particulier, nous obtenons des résultats de pointe pour la vérification faciale sur le jeu de données IJB-C avec un modèle MobileFaceNet : TAR@(FAR=1e-5)=93,7 %. Le code est disponible à l’adresse suivante : https://github.com/Alibaba-MIIL/HeadSharingKD.