Schwach überwachte Instanzsegmentierung mittels Klassenspitzenantwort

Die schwach überwachte Instanzsegmentierung mit Bild-Level-Labels anstelle kostspieliger Pixel-Level-Masken ist bisher wenig erforscht. In dieser Arbeit adressieren wir dieses anspruchsvolle Problem durch die Ausnutzung von Klassifikationspeak-Antworten, um ein Klassifikationsnetzwerk für die Extraktion von Instanzmasken zu befähigen. Unter ausschließlicher Verwendung von Bildlabels können voll konvolutive CNN-Klassifizierer Klassenantwortkarten erzeugen, die das Klassifikationsvertrauen an jeder Bildposition angeben. Wir haben beobachtet, dass lokale Maxima, also Peaks, in einer Klassenantwortkarte in der Regel starken visuellen Hinweisen entsprechen, die innerhalb jeder Instanz vorhanden sind. Angeregt durch diese Erkenntnis entwerfen wir zunächst einen Prozess, um Peaks aus einer Klassenantwortkarte hervorzurufen. Die entstandenen Peaks werden dann rückpropagiert und effektiv auf hochinformative Regionen jeder Objektinstanz abgebildet, wie zum Beispiel Instanzzugrenzen. Wir bezeichnen die oben beschriebenen Karten, die aus den Peak-Antworten generiert werden, als Peak Response Maps (PRMs). PRMs bieten eine feindetaillierte Instanz-Level-Darstellung, die es ermöglicht, sogar mit etablierten Methoden Instanzmasken zu extrahieren. Nach unserem Wissen melden wir erstmals Ergebnisse für die herausfordernde Aufgabe der Bild-Level-überwachten Instanzsegmentierung. Umfangreiche Experimente zeigen außerdem, dass unsere Methode die schwach überwachte punktweise Lokalisierung sowie die semantische Segmentierung verbessert und Stand-der-Techik-Ergebnisse auf gängigen Benchmarks wie PASCAL VOC 2012 und MS COCO liefert.