Soutenir le regroupement avec l'apprentissage par contraste

Le clustering non supervisé vise à découvrir les catégories sémantiques des données en fonction d'une certaine distance mesurée dans l'espace de représentation. Cependant, au début du processus d'apprentissage, différentes catégories se chevauchent souvent entre elles dans cet espace, ce qui pose un défi majeur pour le clustering basé sur la distance afin d'obtenir une bonne séparation entre les catégories. À cette fin, nous proposons le Supporting Clustering with Contrastive Learning (SCCL) -- un cadre novateur permettant d'utiliser l'apprentissage par contraste pour favoriser une meilleure séparation. Nous évaluons les performances de SCCL sur le clustering de textes courts et montrons que SCCL améliore considérablement les résultats de pointe sur la plupart des jeux de données de référence, avec une amélioration de 3 % à 11 % en termes de précision et de 4 % à 15 % en termes d'information mutuelle normalisée. De plus, notre analyse quantitative démontre l'efficacité de SCCL dans l'exploitation des forces tant du discrimination d'instances ascendante que du clustering descendante pour obtenir de meilleures distances intra-cluster et inter-cluster lorsqu'évaluées avec les étiquettes réelles des clusters.