Apprentissage semi-supervisé contrastif conscient des classes

L’apprentissage semi-supervisé basé sur les pseudo-étiquettes (SSL) a connu un grand succès en matière d’utilisation des données brutes. Toutefois, son procédé d’entraînement souffre d’un biais de confirmation en raison du bruit présent dans les étiquettes artificielles générées automatiquement. En outre, le jugement du modèle s’altère davantage en présence de données hors distribution (out-of-distribution) abondantes dans les applications du monde réel. Pour remédier à ce problème, nous proposons une méthode générale nommée Contrasted Semi-Supervised Learning consciente des classes (CCSSL), conçue comme un complément direct afin d’améliorer la qualité des pseudo-étiquettes et de renforcer la robustesse du modèle dans des environnements réels. Contrairement à une approche qui traiterait les données du monde réel comme un ensemble unifié, notre méthode traite séparément les données fiables en distribution grâce au regroupement par classes, afin de les intégrer efficacement aux tâches ultérieures, et les données bruyantes hors distribution via une contraste image par image, afin d’améliorer la généralisation. Par ailleurs, grâce à un rééquilibrage des poids cibles, nous parvenons à accentuer l’apprentissage à partir d’étiquettes propres tout en réduisant l’apprentissage à partir d’étiquettes bruyantes. Malgré sa simplicité, la méthode CCSSL proposée obtient des améliorations significatives par rapport aux états de l’art en SSL sur les jeux de données standards CIFAR100 et STL10. Sur le jeu de données réel Semi-iNat 2021, elle améliore FixMatch de 9,80 % et CoMatch de 3,18 %. Le code est disponible à l’adresse suivante : https://github.com/TencentYoutuResearch/Classification-SemiCLS.