Repräsentationslernen für Clustering durch Aufbau von Konsens

In diesem Paper konzentrieren wir uns auf die unüberwachte Darstellungslernmethode zur Bildclustering. Moderne Fortschritte in der tiefen Clustering- und unüberwachten Darstellungslernmethode basieren auf der Idee, dass verschiedene Ansichten eines Eingabebildes (durch Datenverstärkungstechniken generiert) im Darstellungsräum nahe beieinander liegen müssen (Exemplar-Konsistenz) und/oder dass ähnliche Bilder ähnliche Clusternzuordnungen aufweisen müssen (Populations-Konsistenz). Wir führen eine zusätzliche Konsistenzbedingung ein, die Konsens-Konsistenz genannt wird, die sicherstellt, dass die Lernung der Darstellungen darauf abzielt, für Variationen im Darstellungsräum, unterschiedliche Clustering-Algorithmen oder verschiedene Initialisierungen eines einzelnen Clustering-Algorithmus ähnliche Partitionen zu erzeugen. Wir definieren eine Clustering-Verlustfunktion durch Durchführung von Variationen im Darstellungsräum und integrieren alle drei Konsistenzbedingungen (Konsens-, Exemplar- und Populationskonsistenz) nahtlos in einen end-to-end Lernrahmen. Der vorgeschlagene Algorithmus, Consensus Clustering mittels unüberwachtem Darstellungslernen (ConCURL), übertrifft die Clustering-Leistung der Stand der Technik auf vier von fünf Bild-Datensätzen. Darüber hinaus erweitern wir das Evaluierungsverfahren für Clustering, um die Herausforderungen zu reflektieren, die in realen Clustering-Aufgaben auftreten, wie beispielsweise die Aufrechterhaltung der Clustering-Leistung bei Verteilungsschiebungen. Zudem führen wir eine detaillierte Ablationsstudie durch, um ein tieferes Verständnis des vorgeschlagenen Algorithmus zu erlangen. Der Quellcode und die trainierten Modelle sind unter https://github.com/JayanthRR/ConCURL_NCE verfügbar.