il y a 11 jours

C3 : Clusterisation contrastive guidée par croisement d'instances

Mohammadreza Sadeghi, Hadi Hojjati, Narges Armanfard

Résumé

Le regroupement (clustering) consiste à rassembler des échantillons de données similaires en groupes, sans recourir à des étiquettes prédéfinies. Ce problème a été largement étudié dans la littérature du machine learning, et les progrès récents du deep learning ont renouvelé l’intérêt pour ce domaine. Les modèles de clustering contrastif (CC) constituent une approche fondamentale du clustering profond, dans lesquels des paires positives et négatives pour chaque instance de données sont générées via une augmentation de données. Ces modèles visent à apprendre un espace de caractéristiques où les représentations au niveau des instances et au niveau des clusters pour les paires positives sont regroupées ensemble. Malgré leurs améliorations par rapport aux meilleures performances actuelles (SOTA), ces algorithmes négligent les motifs inter-instance, qui portent pourtant des informations essentielles pour améliorer la qualité du regroupement. Cette omission entraîne une augmentation du taux de paires faussement négatives tout en réduisant le taux de paires véritablement positives. Dans cet article, nous proposons une nouvelle méthode de clustering contrastif, appelée Cross-instance guided Contrastive Clustering (C3), qui prend en compte les relations entre échantillons afin d’augmenter le nombre de paires positives et de réduire l’impact des paires faussement négatives, des échantillons bruités et des anomalies sur les représentations apprises. Plus précisément, nous définissons une nouvelle fonction de perte qui identifie les instances similaires à partir de leurs représentations au niveau des instances, tout en les incitant à s’agrégater. En outre, nous introduisons une nouvelle méthode de pondération pour sélectionner efficacement les échantillons négatifs. Des évaluations expérimentales étendues montrent que notre méthode surpasser les algorithmes de pointe sur des jeux de données classiques de vision par ordinateur : nous améliorons le taux de précision du clustering de 6,6 %, 3,3 %, 5,0 %, 1,3 % et 0,3 % respectivement sur CIFAR-10, CIFAR-100, ImageNet-10, ImageNet-Dogs et Tiny-ImageNet.