CoDiM : Apprentissage avec des étiquettes bruitées via l'apprentissage semi-supervisé contrastif

Les étiquettes sont coûteuses et parfois peu fiables. L’apprentissage avec étiquettes bruyantes, l’apprentissage semi-supervisé et l’apprentissage contrastif constituent trois stratégies distinctes visant à concevoir des processus d’apprentissage nécessitant une moindre charge d’annotation. L’apprentissage semi-supervisé et l’apprentissage contrastif ont récemment démontré leur capacité à améliorer les stratégies d’apprentissage sur des jeux de données comportant des étiquettes bruyantes. Toutefois, les liens internes entre ces domaines ainsi que le potentiel d’association de leurs forces respectives ne sont encore qu’à leurs débuts. Dans cet article, nous explorons davantage les moyens et les avantages d’une telle fusion. Plus précisément, nous proposons CSSL, un algorithme unifié d’apprentissage semi-supervisé contrastif, ainsi que CoDiM (Contrastive DivideMix), un nouvel algorithme pour l’apprentissage avec étiquettes bruyantes. CSSL exploite la puissance des techniques classiques d’apprentissage semi-supervisé et d’apprentissage contrastif, et est par la suite adapté à CoDiM, qui apprend de manière robuste à partir de divers types et niveaux de bruit d’étiquetage. Nous montrons que CoDiM apporte des améliorations constantes et atteint des résultats de pointe sur plusieurs benchmarks.