Apprentissage contrastif supervisé

L’apprentissage contrastif appliqué à l’apprentissage représentationnel auto-supervisé a connu un regain d’intérêt ces dernières années, conduisant à des performances de pointe dans l’entraînement non supervisé des modèles d’images profondes. Les approches modernes de contrastive par lot surpassent ou s’imposent largement face aux pertes contrastives traditionnelles telles que la perte triplet, la perte à marge maximale ou la perte N-pairs. Dans ce travail, nous étendons l’approche auto-supervisée de contrastive par lot au cadre entièrement supervisé, permettant ainsi une utilisation efficace des informations d’étiquettes. Les groupes de points appartenant à la même classe sont rapprochés dans l’espace d’embedding, tandis que les groupes correspondant à des classes différentes sont simultanément éloignés. Nous analysons deux formulations possibles de la perte contrastive supervisée (SupCon), identifiant ainsi la formulation optimale. Sur ResNet-200, nous obtenons une précision top-1 de 81,4 % sur le jeu de données ImageNet, soit 0,8 % de plus que le meilleur résultat rapporté pour cette architecture. Nous démontrons une performance supérieure constante par rapport à la fonction de perte d’entropie croisée sur d’autres jeux de données ainsi que sur deux variantes de ResNet. La perte présente également des avantages en termes de robustesse aux dégradations naturelles et se révèle plus stable vis-à-vis des réglages hyperparamétriques tels que les optimiseurs ou les augmentations de données. Notre fonction de perte est simple à implémenter, et un code de référence en TensorFlow est mis à disposition à l’adresse suivante : https://t.ly/supcon.