Unterstützung von Clustering durch kontrastives Lernen

Unüberwachtes Clustering strebt danach, die semantischen Kategorien von Daten anhand eines Abstands in einem Repräsentationsraum zu entdecken. Allerdings überlappen sich verschiedene Kategorien oft am Anfang des Lernprozesses im Repräsentationsraum, was eine erhebliche Herausforderung für abstandsbasiertes Clustering darstellt, um eine gute Trennung zwischen verschiedenen Kategorien zu erreichen. Zu diesem Zweck schlagen wir Supporting Clustering with Contrastive Learning (SCCL) vor – einen neuen Ansatz, der Kontrastives Lernen nutzt, um eine bessere Trennung zu fördern. Wir bewerten die Leistung von SCCL bei der Clusteranalyse kurzer Texte und zeigen, dass SCCL die Stand der Technik auf den meisten Benchmark-Datensätzen deutlich verbessert: Die Genauigkeit steigt um 3-11 % und die normierte gegenseitige Information (Normalized Mutual Information) um 4-15 %. Darüber hinaus demonstriert unsere quantitative Analyse die Effektivität von SCCL bei der Ausnutzung der Stärken sowohl des bottom-up-basierten Instanzunterscheidungsverfahrens als auch des top-down-basierten Clusterings, um bessere innerhalb- und zwischen-Cluster-Abstände zu erreichen, wenn diese mit den wahren Clustern (ground truth cluster labels) evaluiert werden.