Multi-Modale tiefe Clustering: Unüberwachte Partitionierung von Bildern

Die Clusterung von unbeschrifteten Rohbildern stellt eine herausfordernde Aufgabe dar, die in jüngster Zeit mit einigem Erfolg durch Methoden des tiefen Lernens angegangen wurde. In diesem Beitrag präsentieren wir einen unsupervisierten Clustering-Framework, der ein tiefes neuronales Netzwerk auf end-to-end-Basis lernt und somit direkte Clusterzuordnungen von Bildern ohne zusätzliche Verarbeitungsschritte ermöglicht. Multi-Modales Tiefes Clustering (MMDC) trainiert ein tiefes Netzwerk darauf, seine Bild-Embeddings mit Zielpunkten zu alignieren, die aus einer Gaußschen Mischmodell-Verteilung stammen. Die Clusternzuordnungen werden anschließend durch die Zuordnung der Bild-Embeddings zu den Mischkomponenten bestimmt. Gleichzeitig wird dasselbe tiefes Netzwerk für eine zusätzliche selbstüberwachte Aufgabe trainiert: die Vorhersage von Bildrotationen. Dieser Ansatz zwingt das Netzwerk, bedeutungsvollere Bildrepräsentationen zu lernen, die eine verbesserte Clustering-Leistung ermöglichen. Experimentelle Ergebnisse zeigen, dass MMDC auf sechs anspruchsvollen Benchmarks die bisherigen State-of-the-Art-Leistungen erreicht oder übertreffen kann. Auf natürlichen Bild-Datensätzen erreichen wir gegenüber früheren Ergebnissen signifikante Verbesserungen von bis zu 20 absoluten Genauigkeitspunkten, wobei eine Genauigkeit von 82 % auf CIFAR-10, 45 % auf CIFAR-100 und 69 % auf STL-10 erzielt wird.