Tiefgehende transformationsinvariante Clustering

Neuere Fortschritte im Bereich der Bildclustering konzentrieren sich in der Regel auf das Lernen besserer tiefer Darstellungen. Im Gegensatz dazu präsentieren wir einen orthogonalen Ansatz, der nicht auf abstrakten Merkmalen basiert, sondern das Vorhersagen von Bildtransformationen lernt und das Clustering direkt im Bildraum durchführt. Dieser Lernprozess passt sich natürlich in den gradientenbasierten Trainingsprozess von K-Means und Gaußschen Mischmodellen ein, ohne zusätzliche Verlustfunktionen oder Hyperparameter zu erfordern. Er führt uns zu zwei neuen tiefen transformationsinvarianten Clustering-Frameworks, die Prototypen und Transformationen gemeinsam lernen. Genauer gesagt verwenden wir tiefe Lernmodule, die es uns ermöglichen, Invarianzen gegenüber räumlichen, farbigen und morphologischen Transformationen aufzulösen. Unser Ansatz ist konzeptionell einfach und bietet mehrere Vorteile, darunter die Möglichkeit, die gewünschte Invarianz leicht an die Aufgabe anzupassen, sowie eine starke Interpretierbarkeit sowohl der Clusterzentren als auch der Zuordnungen zu Clustern. Wir zeigen, dass unser neuer Ansatz wettbewerbsfähige und hoch vielversprechende Ergebnisse bei Standard-Benchmarks für Bildclustering liefert. Schließlich veranschaulichen wir dessen Robustheit und die Vorteile seiner verbesserten Interpretierbarkeit durch die Visualisierung von Clustering-Ergebnissen über reale Fotografien-Sammlungen.