CaCo : À la fois les échantillons positifs et négatifs sont directement apprenables grâce à un apprentissage contrastif coopératif-advversaire

En tant que méthode représentative d’apprentissage auto-supervisé, l’apprentissage contrastif a connu un succès remarquable dans l’entraînement non supervisé de représentations. Il entraîne un encodeur en distinguant les exemples positifs des exemples négatifs à partir d’un anchor de requête. Ces exemples positifs et négatifs jouent un rôle fondamental dans la définition de l’objectif visant à apprendre un encodeur discriminant, tout en empêchant celui-ci d’acquérir des caractéristiques triviales. Alors que les méthodes existantes choisissent ces exemples de manière heuristique, nous proposons une approche fondée sur un principe rigoureux, où les exemples positifs et négatifs sont directement apprenables de manière end-to-end avec l’encodeur. Nous démontrons que les exemples positifs et négatifs peuvent être appris de manière coopérative et antagoniste, respectivement en minimisant et en maximisant la perte contrastive. Cela conduit à des exemples positifs coopératifs et des exemples négatifs antagonistes par rapport à l’encodeur, qui sont mis à jour de manière continue afin de suivre en permanence la représentation apprise des anchors de requête au sein des mini-batches. La méthode proposée atteint une précision top-1 de 71,3 % et 75,3 % respectivement après 200 et 800 époques d’entraînement préalable du modèle ResNet-50 sur ImageNet1K, sans recourir à des astuces telles que le multi-crop ou des augmentations plus puissantes. Avec l’approche Multi-Crop, cette performance peut être portée à 75,7 %. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/maple-research-lab/caco.