Zuordnung von interbildlichen auffälligen Instanzen für schwach überwachte semantische Segmentierung

Die effektive Verbindung zwischen bildbasierten Schlüsselwortannotationen und den entsprechenden Bildpixeln stellt eine der zentralen Herausforderungen bei der schwach beschrifteten semantischen Segmentierung dar. In diesem Artikel nutzen wir einen instanzbasierten salienten Objektdetektor, um automatisch saliente Instanzen (Kandidatobjekte) für die Trainingsbilder zu generieren. Unter Verwendung von Ähnlichkeitsmerkmalen, die aus jeder salienten Instanz im gesamten Trainingsdatensatz extrahiert wurden, erstellen wir einen Ähnlichkeitsgraphen und wenden anschließend einen Graphenpartitionsalgorithmus an, um diesen in mehrere Teilgraphen zu zerlegen, wobei jeder Teilgraph einem einzelnen Schlüsselwort (Tag) zugeordnet ist. Unser auf Graphenpartionierung basierender Clustering-Algorithmus ermöglicht es uns, sowohl die Beziehungen zwischen allen salienten Instanzen im Trainingsdatensatz als auch die darin enthaltene Information zu berücksichtigen. Wir zeigen weiterhin, dass mit Hilfe von Aufmerksamkeitsinformationen unser Clustering-Algorithmus bestimmte fehlerhafte Zuordnungen korrigieren kann, was zu genaueren Ergebnissen führt. Der vorgeschlagene Rahmen ist allgemein gültig und lässt sich mit jeder state-of-the-art vollständig beschrifteten Netzwerkarchitektur kombinieren, um das Segmentierungsnetzwerk zu trainieren. Bei der Anwendung auf DeepLab für die semantische Segmentierung übertrifft unsere Methode state-of-the-art Ansätze zur schwach beschrifteten Segmentierung deutlich und erreicht eine mIoU von 65,6 % auf dem PASCAL VOC 2012 Datensatz. Zudem kombinieren wir unsere Methode mit Mask R-CNN für die Instanzsegmentierung und demonstrieren erstmals die Fähigkeit der schwach beschrifteten Instanzsegmentierung unter Verwendung ausschließlich von Schlüsselwortannotationen.