Unüberwachte universelle Bildsegmentierung

Es wurden mehrere unüberwachte Bildsegmentierungsansätze vorgeschlagen, die das Bedürfnis nach dicht manuell annotierten Segmentierungsmasken eliminieren; aktuelle Modelle behandeln entweder semantische Segmentierung (z.B. STEGO) oder klassenunabhängige Instanzsegmentierung (z.B. CutLER), aber nicht beides (d.h. panoptische Segmentierung). Wir schlagen ein unüberwachtes universelles Segmentierungsmodell (U2Seg) vor, das in der Lage ist, verschiedene Bildsegmentierungsaufgaben – Instanz-, semantische und panoptische Segmentierung – mit einem neuartigen einheitlichen Framework durchzuführen. U2Seg erzeugt Pseudosemantiklabels für diese Segmentierungsaufgaben durch den Einsatz von selbstüberwachten Modellen gefolgt von Clustering; jedes Cluster repräsentiert unterschiedliche semantische und/oder instanzbezogene Zugehörigkeiten der Pixel. Anschließend führen wir eine Selbsttrainingsphase des Modells auf diesen Pseudosemantiklabels durch, was zu erheblichen Leistungssteigerungen im Vergleich zu spezialisierten Methoden, die jeweils für jede Aufgabe angepasst sind, führt: eine Steigerung um +2,6 AP$^{\text{box}}$ gegenüber CutLER bei der unüberwachten Instanzsegmentierung auf COCO und eine Erhöhung um +7,0 PixelAcc (im Vergleich zu STEGO) bei der unüberwachten semantischen Segmentierung auf COCOStuff. Darüber hinaus legt unsere Methode einen neuen Baseline für die unüberwachte panoptische Segmentierung fest, die bisher noch nicht untersucht wurde. U2Seg ist auch ein leistungsfähiges vortrainiertes Modell für Few-Shot-Segmentierung und übertrifft CutLER um +5,0 AP$^{\text{mask}}$, wenn es in einem Datenregime mit geringer Datenmenge trainiert wird, z.B. nur 1% der COCO-Labels. Wir hoffen, dass unsere einfache und dennoch effektive Methode weitere Forschungen zur unüberwachten universellen Bildsegmentierung anregen kann.