OpenMatch : Apprentissage semi-supervisé à ensemble ouvert avec régularisation de cohérence à ensemble ouvert

L’apprentissage semi-supervisé (SSL) constitue un moyen efficace d’exploiter les données non étiquetées afin d’améliorer les performances d’un modèle. Les méthodes SSL classiques, telles que FixMatch, supposent que les données étiquetées et non étiquetées partagent le même espace de labels. Toutefois, en pratique, les données non étiquetées peuvent contenir des catégories inconnues dans l’ensemble étiqueté, c’est-à-dire des outliers, ce qui peut gravement nuire aux performances des algorithmes SSL. Pour remédier à ce problème, nous proposons une nouvelle approche d’apprentissage semi-supervisé à ensemble ouvert (OSSL), appelée OpenMatch. L’apprentissage de représentations des données typiques (inliers) tout en rejetant les outliers est essentiel au succès de l’OSSL. À cet effet, OpenMatch intègre FixMatch à une détection de nouveauté basée sur des classifieurs one-vs-all (OVA). Le classifieur OVA fournit une note de confiance indiquant qu’un échantillon est un inlier, permettant ainsi de définir un seuil pour détecter les outliers. Une autre contribution majeure est une perte de régularisation souple à ensemble ouvert, qui améliore la régularité du classifieur OVA face aux transformations d’entrée et renforce considérablement la détection des outliers. Notre méthode atteint des performances de pointe sur trois jeux de données, et même surpasser un modèle entièrement supervisé dans la détection d’outliers non présents dans les données non étiquetées sur CIFAR10. Le code est disponible à l’adresse suivante : \url{https://github.com/VisionLearningGroup/OP_Match}.