Untersuchung der Grenzen der tiefen Bildclustering unter Verwendung vortrainierter Modelle

Wir präsentieren eine allgemeine Methodik zur Bildklassifikation ohne Labels, die vortrainierte Merkmalsextraktoren nutzt. Unser Ansatz basiert auf einem selbst-verteidigenden (self-distillation) Training von Clustering-Head-Modulen unter der Annahme, dass Nachbarn im vortrainierten Merkmalsraum wahrscheinlich dieselbe Klasse teilen. Wir schlagen ein neuartiges Ziel (objective) vor, das Assoziationen zwischen Bildmerkmalen lernt, indem eine Variante der punktweisen gegenseitigen Information zusammen mit Instanzgewichtung eingeführt wird. Wir zeigen, dass das vorgeschlagene Ziel die Auswirkungen von falsch positiven Paaren reduzieren kann, während gleichzeitig die Struktur im vortrainierten Merkmalsraum effizient ausgenutzt wird. Als Ergebnis verbessern wir die Clustering-Genauigkeit gegenüber $k$-Means bei 17 verschiedenen vortrainierten Modellen um 6,1 % auf ImageNet und um 12,2 % auf CIFAR100. Schließlich erreichen wir mit selbstüberwachten Vision-Transformern eine Clustering-Genauigkeit von 61,6 % auf ImageNet. Der Quellcode ist unter https://github.com/HHU-MMBS/TEMI-official-BMVC2023 verfügbar.