RealMix : Vers des algorithmes de apprentissage profond semi-supervisés réalistes

Les algorithmes d'apprentissage semi-supervisé (SSL) ont démontré un grand potentiel dans les régimes d'entraînement lorsque les données étiquetées sont rares mais que les données non étiquetées sont abondantes. Toutefois, nos expériences mettent en évidence plusieurs limites auxquelles les algorithmes SSL antérieurs sont confrontés, en particulier une faible performance lorsque les distributions des données étiquetées et non étiquetées diffèrent. Pour répondre à ces constatations, nous proposons RealMix, qui atteint des résultats de pointe sur des jeux de données standard benchmarks, quelles que soient les tailles des ensembles étiquetés et non étiquetés, tout en surmontant les défis mentionnés. Notamment, RealMix obtient un taux d'erreur de 9,79 % sur CIFAR10 avec seulement 250 étiquettes, et constitue la seule méthode SSL testée capable de dépasser les performances de la base de référence lorsque les distributions des données étiquetées et non étiquetées présentent un fort désalignement. RealMix illustre ainsi comment le SSL peut être appliqué dans des situations réelles caractérisées par un accès limité à la fois aux données et aux ressources de calcul, tout en orientant les recherches futures vers des approches de SSL dotées d'une applicabilité pratique.