K-Means für unsupervised Instance-Segmentation unter Verwendung eines selbstüberwachten Transformers
Instanzsegmentierung ist eine grundlegende Aufgabe im Bereich des maschinellen Sehens, bei der jedem Pixel eine entsprechende Klasse zugewiesen und Objekte in Achsenparallelen Rechtecken lokalisiert werden. Die Erhebung von pixelgenauen Segmentierungsannotierungen erweist sich jedoch als ressourcen- und zeitintensiver im Vergleich zur Erhebung von Klassifikations- oder Detektionslabels. In diesem Beitrag stellen wir einen neuartigen Ansatz vor, den iterativen Maskenverfeinerungsansatz mit einem selbstüberwachten Transformer (IMST), der klassenunabhängige, unsupervisierte Instanzsegmentierung mithilfe einfacher K-Means-Clustering-Verfahren und eines selbstüberwachten Vision-Transformers durchführt. IMST generiert sogenannte Pseudowahrheitslabels, die zur Trainings von kommerziell verfügbaren Instanzsegmentierungsmodellen genutzt werden können. Die Pseudolabels zeigen eine verbesserte Leistung auf mehreren Datensätzen. Das Instanzsegmentierungsmodell, das auf diesen Pseudolabels trainiert wurde, übertrifft state-of-the-art-Methoden für unsupervisierte Instanzsegmentierung auf COCO20k (+4,0 AP) und COCO val2017 (+2,6 AP), ohne Anpassungen am Trainingsverlust oder der Architektur. Wir zeigen zudem, dass unser Ansatz auf Aufgaben wie Einzel- oder Mehrfachobjekterkennung sowie supervisiertes Feintuning für Instanzsegmentierung erweitert werden kann, wobei er gegenüber früheren Methoden eine bessere Leistung erzielt.