Distillation de connaissance auto-supervisée pour l'apprentissage peu supervisé

Le monde réel contient un nombre énorme de classes d’objets, et il est impossible d’apprendre toutes ces classes simultanément. L’apprentissage peu supervisé (few-shot learning) constitue un paradigme prometteur grâce à sa capacité à apprendre rapidement à partir de distributions non ordonnées, avec seulement quelques exemples. Des travaux récents [7, 41] montrent qu’il suffit de bien apprendre une représentation d’embedding de caractéristiques pour surpasser des algorithmes plus sophistiqués basés sur l’apprentissage métadonnées ou l’apprentissage par métriques dans le cadre du few-shot learning. Dans cet article, nous proposons une approche simple visant à améliorer la capacité de représentation des réseaux de neurones profonds pour les tâches d’apprentissage peu supervisé. Nous adoptons un processus d’apprentissage en deux étapes : dans un premier temps, nous entraînons un réseau de neurones afin de maximiser l’entropie de l’embedding des caractéristiques, ce qui permet de construire une variété de sortie optimale grâce à une perte auxiliaire auto-supervisée. Dans une deuxième étape, nous minimisons l’entropie de l’embedding en rapprochant des « jumeaux » auto-supervisés, tout en maintenant la structure de la variété grâce à une distillation élève-enseignant. Nos expériences montrent que, même à la première étape, l’auto-supervision peut dépasser les méthodes de pointe actuelles, avec des gains supplémentaires obtenus grâce au processus de distillation de la deuxième étape. Le code source est disponible à l’adresse suivante : https://github.com/brjathu/SKD.