Unüberwachtes visuelles Repräsentationslernen durch online-restringiertes K-Means

Clusterdiskriminierung ist eine effektive Vorab-Aufgabe für das unüberwachte Repräsentationsslernen, die in der Regel zwei Phasen umfasst: Clustern und Diskriminieren. Das Clustern besteht darin, jeder Instanz ein Pseudolabel zuzuweisen, das dann im Diskriminationsprozess zur Lernung von Repräsentationen verwendet wird. Die Hauptausforderung liegt im Clustern, da gängige Clusterverfahren (z.B. k-Means) im Batch-Modus ausgeführt werden müssen. Darüber hinaus kann es zu einer trivialen Lösung kommen, die aus einem dominierenden Cluster besteht. Um diese Herausforderungen zu bewältigen, untersuchen wir zunächst das Ziel des clustergestützten Repräsentationsslearnens. Auf dieser Grundlage schlagen wir eine neue clustergestützte Vorab-Aufgabe vor, die Online \textbf{Co}nstrained \textbf{K}-m\textbf{e}ans (\textbf{CoKe}) nennt. Im Vergleich zum balancierten Clustern, bei dem jede Gruppe genau die gleiche Größe hat, beschränken wir uns darauf, die minimale Größe jedes Clusters zu regeln, um flexibel die inhärente Datenstruktur zu erfassen. Wichtiger noch ist, dass unsere Online-Zuordnungsmethode eine theoretische Garantie bietet, den globalen Optimum anzunähern. Durch die Trennung von Clustern und Diskriminierung kann CoKe wettbewerbsfähige Leistungen erzielen, wenn es nur mit einer einzigen Sicht auf jede Instanz optimiert wird. Ausführliche Experimente auf ImageNet und anderen Benchmark-Datensätzen bestätigen sowohl die Effizienz als auch die Effektivität unseres Ansatzes. Der Quellcode ist unter \url{https://github.com/idstcv/CoKe} verfügbar.