Espace de classe réduit pour une certitude améliorée dans l’apprentissage semi-supervisé

L'apprentissage semi-supervisé suscite un intérêt croissant, en raison de son succès dans l'exploitation des données non étiquetées. Pour atténuer les étiquettes pseudo-incorrectes potentielles, les cadres récents fixent généralement un seuil de confiance fixe afin d'éliminer les échantillons incertains. Cette pratique garantit une qualité élevée des étiquettes pseudo, mais entraîne une utilisation relativement faible de l'ensemble complet des données non étiquetées. Dans ce travail, notre observation clé est que ces échantillons incertains peuvent être transformés en échantillons certains, à condition de détecter et d’éliminer les classes confuses associées à la classe principale (top-1). Inspirés par cette idée, nous proposons une nouvelle méthode, nommée ShrinkMatch, pour apprendre à partir des échantillons incertains. Pour chaque échantillon incertain, notre méthode recherche de manière adaptative un espace de classes réduit, qui ne contient que la classe principale d’origine ainsi que les classes moins probables. Comme les classes confuses sont éliminées dans cet espace réduit, la confiance recalculée pour la classe principale satisfait le seuil prédéfini. Nous imposons ensuite une régularisation de cohérence entre une paire d’échantillons fortement et faiblement augmentés dans cet espace réduit, afin d’obtenir des représentations discriminantes. En outre, en tenant compte de la fiabilité variable des échantillons incertains et de l’amélioration progressive du modèle au cours de l’entraînement, nous proposons deux principes de réajustement des poids spécifiques à la perte des échantillons incertains. Notre méthode obtient des performances remarquables sur des benchmarks largement utilisés. Le code est disponible à l’adresse suivante : https://github.com/LiheYoung/ShrinkMatch.