Apprentissage contrastif faiblement supervisé

L'apprentissage non supervisé des représentations visuelles a suscité un intérêt croissant au sein de la communauté du traitement d'image, en raison des récents progrès réalisés par l'apprentissage contrastif. La plupart des cadres existants d'apprentissage contrastif adoptent la discrimination d'instances comme tâche prétexte, traitant chaque instance individuelle comme une classe distincte. Toutefois, cette approche entraîne inévitablement des problèmes de collision de classes, qui détériorent la qualité des représentations apprises. Motivés par cette observation, nous proposons un cadre d'apprentissage contrastif faiblement supervisé (WCL) afin de résoudre ce problème. Plus précisément, notre cadre repose sur deux têtes de projection : l'une effectue la tâche classique de discrimination d'instances, tandis que l'autre utilise une méthode basée sur les graphes pour explorer des échantillons similaires, générer des étiquettes faibles, puis mener une tâche d'apprentissage contrastif supervisé basée sur ces étiquettes faibles afin de rapprocher les images similaires. Nous introduisons également une stratégie multi-crop fondée sur les K plus proches voisins afin d'élargir le nombre d'échantillons positifs. Les résultats expérimentaux étendus démontrent que WCL améliore la qualité des représentations auto-supervisées sur divers jeux de données. Notamment, nous atteignons un nouveau record d'état de l'art pour l'apprentissage semi-supervisé : avec seulement 1 % et 10 % d'exemples étiquetés, WCL atteint respectivement 65 % et 72 % de précision Top-1 sur ImageNet en utilisant ResNet50, ce qui dépasse même les performances de SimCLRv2 avec ResNet101.