Étiquetage sélectif non supervisé pour une apprentissage semi-supervisé plus efficace

Étant donné un ensemble de données non étiqueté et un budget d'annotation, nous étudions comment sélectionner de manière sélective un nombre fixe d'instances afin que l'apprentissage semi-supervisé (SSL) sur un tel ensemble de données partiellement étiqueté soit le plus efficace possible. Nous nous concentrons sur la sélection des bonnes données à étiqueter, en complément de la propagation habituelle des étiquettes des données étiquetées vers le reste des données non étiquetées dans le cadre du SSL. Cette tâche de sélection d'instances est complexe, car sans aucune donnée étiquetée, nous ne savons pas quel doit être l'objectif de l'apprentissage. Intuitivement, quelle que soit la tâche en aval, les instances à étiqueter doivent être représentatives et diverses : les premières faciliteraient la propagation des étiquettes aux données non étiquetées, tandis que les secondes garantiraient une couverture complète de l'ensemble de données. Nous mettons en œuvre cette idée en sélectionnant des prototypes de clusters, soit dans un espace de caractéristiques pré-entraîné, soit conjointement avec l'optimisation des caractéristiques, et ce sans utiliser d'étiquettes. Notre méthode d'étiquetage sélectif non supervisée améliore constamment les méthodes SSL par rapport à l'apprentissage actif (active learning) basé sur des données étiquetées, avec une efficacité en termes d'étiquettes 8 à 25 fois supérieure. Par exemple, elle augmente la précision de FixMatch de 10 % (14 %) sur CIFAR-10 (ImageNet-1K) avec seulement 0,08 % (0,2 %) de données étiquetées, démontrant ainsi que même un faible investissement en calcul pour sélectionner les données à annoter apporte des gains significatifs, particulièrement lorsque le budget d'annotation est limité. Notre travail établit une nouvelle norme pour un SSL pratique et efficace.