Toutes les étiquettes ne sont pas créées égales : amélioration de la semi-supervision par regroupement d’étiquettes et co-entraînement

L’étiquetage par pseudo-étiquettes (pseudo-labeling) constitue un élément clé de l’apprentissage semi-supervisé (SSL). Il repose sur une itération répétée où le modèle génère des étiquettes artificielles pour les données non étiquetées afin de les utiliser dans l’entraînement. Une propriété commune à plusieurs méthodes basées sur cette approche est qu’elles ne tiennent compte que des prédictions du modèle pour décider des étiquettes, sans intégrer aucune connaissance a priori sur la similarité visuelle entre les classes. Dans cet article, nous démontrons que cette limitation nuit à la qualité de l’étiquetage par pseudo-étiquettes, car elle conduit à une représentation insuffisante des classes visuellement similaires au sein de l’ensemble des données pseudo-étiquetées. Nous proposons SemCo, une méthode qui exploite les sémantiques des étiquettes et le co-entraînement pour résoudre ce problème. Nous entraînons deux classifieurs à partir de deux représentations différentes des étiquettes de classe : le premier utilise une représentation one-hot, ignorant toute similarité potentielle entre les classes, tandis que le second adopte une représentation distribuée qui regroupe les classes potentiellement similaires. Nous entraînons ensuite les deux classifieurs de manière co-entraînée, en exploitant leurs désaccords pour améliorer l’apprentissage. Nous montrons que notre méthode atteint des performances de pointe sur diverses tâches de SSL, notamment une amélioration de 5,6 % en précision sur le jeu de données Mini-ImageNet avec seulement 1 000 exemples étiquetés. Nous démontrons également que notre approche nécessite une taille de lot plus faible et un nombre réduit d’itérations d’entraînement pour atteindre ses meilleures performances. Le code source est disponible à l’adresse suivante : https://github.com/islam-nassar/semco.