Cold PAWS : Découverte non supervisée de classes et résolution du problème du démarrage froid pour l'apprentissage semi-supervisé

Dans de nombreuses applications d’apprentissage automatique, l’étiquetage des jeux de données constitue une tâche fastidieuse et chronophage. Bien que des recherches aient démontré que les techniques d’apprentissage semi-supervisé permettent d’atteindre une haute précision avec très peu d’étiquettes dans le domaine de la vision par ordinateur, peu d’attention a été portée à la manière dont les images d’un jeu de données devraient être sélectionnées pour l’étiquetage. Dans cet article, nous proposons une nouvelle approche fondée sur des techniques éprouvées d’apprentissage auto-supervisé, de regroupement (clustering) et d’apprentissage sur variétés (manifold learning), visant à résoudre le défi de sélectionner, dès le départ, un sous-ensemble d’images informatif à étiqueter — un problème connu sous le nom de « sélection d’étiquetage non supervisée » ou « problème du démarrage froid » (cold-start). Nous évaluons notre méthode sur plusieurs jeux de données publics, à savoir CIFAR10, Imagenette, DeepWeeds et EuroSAT, et observons une amélioration des performances, tant avec des stratégies d’apprentissage supervisé qu’avec des approches semi-supervisées, lorsque notre stratégie de sélection d’étiquettes est utilisée, par rapport à un échantillonnage aléatoire. De plus, nous obtenons des performances supérieures sur les jeux de données étudiés, avec une approche bien plus simple que celles proposées dans la littérature.