Diskriminativ gesteigerte Bildclustering mit vollkonvolutiven Autoencodern

Traditionelle Bildclusterverfahren gehen in zwei Schritten vor: sequenziell Feature-Lernen und Clustern. Kürzliche Forschungsergebnisse haben jedoch gezeigt, dass die Verbindung der getrennten Phasen in einem einheitlichen Framework und deren gemeinsames Training eine bessere Leistung erzielen kann. In dieser Arbeit führen wir zunächst vollständig konvolutive Autoencoder für das Lernen von Bildfeatures ein und schlagen dann ein einheitliches Clustering-Framework vor, das auf Basis eines vollständig konvolutiven Autoencoders und weicher $k$-Means-Werte Bildrepräsentationen und Clusterzentren gemeinsam lernt. In den Anfangsstadien des Lernprozesses können die aus dem Autoencoder extrahierten Repräsentationen noch nicht sehr diskriminativ für das spätere Clustern sein. Wir lösen dieses Problem durch die Einführung einer verstärkten diskriminativen Verteilung, bei der hohe Zuordnungswerte hervorgehoben und niedrige dezentriert werden. Mit der allmählich erhöhten Diskriminierung werden die Clustering-Zuordnungswerte differenzierter und die Clusterreinheit erhöht. Experimente mit mehreren Benchmark-Datensätzen aus dem Bereich Computer Vision zeigen, dass unsere Methoden eine Stand-of-the-Art-Leistung erzielen können.