Gemeinsames unüberwachtes Lernen von tiefen Darstellungen und Bildclustern

In dieser Arbeit schlagen wir ein rekurrentes Framework für das gemeinsame unüberwachte Lernen (JULE) von tiefen Darstellungen und Bildclustern vor. In unserem Framework werden aufeinanderfolgende Operationen eines Clusteralgorithmus als Schritte in einem rekurrenten Prozess dargestellt, der auf den Darstellungen eines Faltungsneuronalen Netzes (CNN) aufgebaut ist. Während des Trainings werden Bildcluster und Darstellungen gemeinsam aktualisiert: Die Bildclustering-Operation wird im Vorwärtslauf durchgeführt, während das Lernen der Darstellungen im Rückwärtslauf stattfindet. Das zentrale Konzept hinter diesem Framework ist, dass gute Darstellungen dem Bildclustering nützlich sind und die Ergebnisse des Clustering überwachende Signale für das Lernen der Darstellungen liefern. Durch die Integration beider Prozesse in ein einzelnes Modell mit einer vereinheitlichten gewichteten Triplettenverlustfunktion und die end-to-end Optimierung können wir nicht nur leistungsfähigere Darstellungen, sondern auch präzisere Bildcluster erzielen. Umfangreiche Experimente zeigen, dass unsere Methode den aktuellen Stand der Technik bei der Bildclustering-Aufgabe auf verschiedenen Bilddatensätzen übertreffen kann. Zudem verallgemeinern sich die gelernten Darstellungen gut, wenn sie auf andere Aufgaben übertragen werden.