Semantische Projektionsnetzwerk für Zero- und Few-Label-Semantische Segmentierung

Semantische Segmentierung ist eine der grundlegendsten Aufgaben im Bereich des Computersehens, wobei die pixelgenaue Annotation in diesem Kontext besonders kostenaufwendig ist. Daher wurden mehrere Ansätze unternommen, um den Annotationaufwand zu reduzieren, beispielsweise durch Lernen anhand von Bildniveaumarkierungen oder Rechteckannotationen (Bounding Boxes). In diesem Artikel gehen wir einen Schritt weiter und konzentrieren uns auf die anspruchsvolle Aufgabe des Zero- und Few-Shot-Lernens in der semantischen Segmentierung. Wir definieren diese Aufgabe als Bildsegmentierung, bei der jedem Pixel ein Label zugewiesen wird, obwohl während des Trainings entweder keine gelabelten Beispiele dieser Klasse vorhanden waren (d.h. Zero-Label-Semantische Segmentierung) oder lediglich wenige gelabelte Beispiele vorhanden waren (d.h. Few-Label-Semantische Segmentierung). Unser Ziel besteht darin, Wissen aus bisher gesehenen Klassen auf neue Klassen zu übertragen. Unser vorgeschlagenes Semantik-Projektionsnetzwerk (SPNet) erreicht dieses Ziel, indem es semantische Informationen auf Klassenlevel in beliebige für die semantische Segmentierung konzipierte Netzwerke end-to-end integriert. Zudem präsentieren wir eine Benchmark für diese Aufgabe auf den anspruchsvollen Datensätzen COCO-Stuff und PASCAL VOC12. Unser Modell zeigt sich wirksam bei der Segmentierung neuer Klassen, d.h. bei der Verringerung des kostspieligen Aufwands für dichte Annotationen, und gleichzeitig in der Fähigkeit, sich an neue Klassen anzupassen, ohne das vorherige Wissen zu vergessen – also im Sinne einer generalisierten Zero- und Few-Label-Semantischen Segmentierung.