Verallgemeinerte Kategorienentdeckung

In dieser Arbeit betrachten wir eine hochgradig allgemeine Bilderkennungssituation, bei der die Aufgabe darin besteht, alle Bilder in einem unbeschrifteten Datensatz zu kategorisieren, gegeben sind ein beschrifteter und ein unbeschrifteter Datensatz von Bildern. Dabei können die unbeschrifteten Bilder sowohl aus den beschrifteten Klassen als auch aus neuen Klassen stammen. Bestehende Erkennungsverfahren sind nicht in der Lage, mit dieser Situation umzugehen, da sie mehrere einschränkende Annahmen treffen, wie zum Beispiel, dass die unbeschrifteten Instanzen nur aus bekannten oder unbekannten Klassen stammen und die Anzahl der unbekannten Klassen a priori bekannt ist. Wir adressieren diese weniger eingeschränkte Situation und bezeichnen sie als "Verallgemeinerte Kategorieentdeckung" (Generalized Category Discovery) und stellen alle diese Annahmen in Frage. Zunächst etablieren wir starke Baseline-Methoden, indem wir aktuelle Algorithmen für die Entdeckung neuer Kategorien verwenden und an diese Aufgabe anpassen. Anschließend schlagen wir den Einsatz von Visionstransformern mit kontrastiver Repräsentationslernen für dieses offene Weltsetting vor. Danach führen wir eine einfache, aber effektive semi-überwachte $k$-Means-Methode ein, um die unbeschrifteten Daten automatisch in gesehene und ungesehene Klassen zu clustern, wobei unsere Methode erheblich bessere Ergebnisse als die Baseline-Methoden erzielt. Schließlich schlagen wir auch einen neuen Ansatz zur Schätzung der Anzahl der Klassen in den unbeschrifteten Daten vor. Wir evaluieren unseren Ansatz gründlich auf öffentlichen Datensätzen für generische Objektklassifikation sowie auf feinkörnigen Datensätzen unter Verwendung des jüngst veröffentlichten Semantic Shift Benchmark-Suites. Projektseite: https://www.robots.ox.ac.uk/~vgg/research/gcd