Informationsoptimierende Clustering durch mehrschichtige Selbstbeschriftung

Bildclustering ist eine besonders herausfordernde Aufgabe im Bereich des Computersehens, die darauf abzielt, Annotations ohne menschliche Aufsicht zu generieren. In jüngster Zeit konzentrieren sich Fortschritte auf den Einsatz selbstüberwachter Lernstrategien im Bildclustering, indem zunächst aussagekräftige Semantikinformationen erlernt und anschließend die Bilddarstellungen gruppiert werden. Diese mehrphasigen Algorithmen erhöhen jedoch die Rechenzeit erheblich, und ihre endgültige Leistung hängt stark von der ersten Phase ab. Durch die Erweiterung des selbstüberwachten Ansatzes stellen wir eine neuartige einphasige Clustering-Methode vor, die gleichzeitig sinnvolle Darstellungen lernt und die entsprechenden Annotationen zuweist. Dies wird erreicht, indem eine diskrete Darstellung über ein Klassifizierungsnetz in das selbstüberwachte Paradigma integriert wird. Konkret verwendet das vorgeschlagene Clustering-Ziel die gegenseitige Information und maximiert die Abhängigkeit zwischen der integrierten diskreten Darstellung und einer diskreten Wahrscheinlichkeitsverteilung. Diese Wahrscheinlichkeitsverteilung wird durch den selbstüberwachten Prozess abgeleitet, indem die gelernten latente Darstellungen mit einer Menge trainierbarer Prototypen verglichen werden. Um die Lernleistung des Klassifizierers zu verbessern, wenden wir die gegenseitige Information über mehrere Cropping-Views gemeinsam an. Unsere empirischen Ergebnisse zeigen, dass der vorgeschlagene Ansatz die Stand-of-the-Art-Techniken bei durchschnittlichen Genauigkeiten von 89,1 % und 49,0 % auf den Datensätzen CIFAR-10 und CIFAR-100/20 übertrifft. Schließlich demonstriert die vorgeschlagene Methode zudem eine attraktive Robustheit gegenüber Parametereinstellungen, was ihre Anwendbarkeit auf weitere Datensätze nahelegt.