DeepDPM: Tiefes Clustering mit unbekannter Anzahl von Clustern

Tiefes Lernen (DL) hat bei der unlösbaren Aufgabe des Clusterns großes Potenzial gezeigt. Dennoch sind die Vorteile des nichtparametrischen Ansatzes in klassischem (d.h. nicht-tiefem) Clustern gut bekannt, während die meisten tiefen Clusterverfahren parametrisch sind: Sie erfordern eine vordefinierte und feste Anzahl von Clustern, bezeichnet als K. Wenn K jedoch unbekannt ist, kann die Verwendung von Modellselektionskriterien zur Wahl seines optimalen Wertes rechnerisch aufwendig werden, insbesondere im DL, da das Trainingsprozess mehrfach wiederholt werden muss. In dieser Arbeit schließen wir diese Lücke, indem wir ein effektives tiefes Clusterverfahren einführen, das den Wert von K nicht kennen muss, da es diesen während des Lernens inferiert. Durch die Verwendung eines Split/Merge-Rahmenwerks, einer dynamischen Architektur, die sich an die veränderliche K anpasst, und einem neuen Verlustfunktion, übertrifft unser vorgeschlagenes Verfahren bestehende nichtparametrische Methoden (sowohl klassische als auch tiefe). Während die sehr wenigen existierenden tiefen nichtparametrischen Methoden an Skalierbarkeit mangeln, demonstrieren wir unsere Methode durch die erste Berichterstattung über deren Leistungsfähigkeit auf ImageNet. Wir zeigen außerdem die Bedeutung der Inferenz von K dadurch, dass Methoden, die diesen Wert festlegen, in ihrer Leistung nachlassen, wenn ihr angenommener K-Wert weiter vom tatsächlichen Wert abweicht – besonders auf unbalancierten Datensätzen. Unser Code ist unter https://github.com/BGU-CS-VIL/DeepDPM verfügbar.