Schwach beschriftetes semantisches Segmentierungsnetzwerk mit tiefem gesätem Regionenwachstum

Diese Arbeit untersucht das Problem des Lernens von Bildsemantiksegmentierungsnetzwerken ausschließlich anhand von bildweisen Etiketten als Supervision, was von großer Bedeutung ist, da es die menschliche Annotation erheblich reduzieren kann. Kürzlich vorgestellte State-of-the-Art-Methoden für dieses Problem schätzen zunächst seltene und diskriminative Regionen für jede Objektklasse mit Hilfe eines tiefen Klassifikationsnetzwerks und trainieren anschließend ein Semantiksegmentierungsnetzwerk unter Verwendung dieser diskriminativen Regionen als Supervision. Inspiriert von traditionellen Methoden der Bildsegmentierung mittels keimbasierter Regionenwachstum, schlagen wir vor, ein Semantiksegmentierungsnetzwerk ausgehend von den diskriminativen Regionen zu trainieren und die Pixel-Level-Supervision schrittweise durch keimbasierteres Regionenwachstum zu erweitern. Der keimbasierende Regionenwachstums-Modul wird in ein tiefes Segmentierungsnetzwerk integriert und kann somit von tiefen Merkmalen profitieren. Im Gegensatz zu herkömmlichen tiefen Netzwerken mit festen/statischen Etiketten generiert das vorgeschlagene schwach überwachte Netzwerk neue Etiketten basierend auf kontextuellen Informationen innerhalb eines Bildes. Die vorgeschlagene Methode übertrifft erheblich schwach überwachte Ansätze zur Semantiksegmentierung mit statischen Etiketten und erreicht eine State-of-the-Art-Leistung mit einem mIoU-Wert von 63,2 % auf dem PASCAL VOC 2012 Testset und 26,0 % auf dem COCO-Datensatz.