Macro-Micro Adversariales Netzwerk für die menschliche Segmentierung

Im Bereich der menschlichen Segmentierung (human parsing) weisen die pixelweise Klassifikationsverluste (pixel-wise classification loss) Nachteile in Form von lokal-untergeordneten Inkonsistenzen und hochstufigen semantischen Inkonsistenzen auf. Die Einführung eines adversären Netzes (adversarial network) greift diese beiden Probleme mit einem einzelnen Diskriminator an. Allerdings werden die beiden Arten von Segmentierungsinkonsistenzen durch unterschiedliche Mechanismen verursacht, sodass es für einen einzelnen Diskriminator schwierig ist, beide gleichzeitig zu lösen. Um diese beiden Arten von Inkonsistenzen anzugehen, schlägt dieser Artikel das Makro-Mikro-Adversarische Netz (Macro-Micro Adversarial Net, MMAN) vor. Es verfügt über zwei Diskriminatoren. Der erste Diskriminator, Makro-D (Macro D), wirkt auf die niedrige Auflösung des Label-Kartens und bestraft semantische Inkonsistenzen, z.B. fehlerhaft platzierte Körperteile. Der zweite Diskriminator, Mikro-D (Micro D), konzentriert sich auf mehrere Bereiche der hohen Auflösung des Label-Kartens, um lokale Inkonsistenzen wie Unscharfe und Löcher zu behandeln. Im Vergleich zu traditionellen adversären Netzen erzwingt MMAN nicht nur explizit lokale und semantische Konsistenz, sondern vermeidet auch das Problem der schlechten Konvergenz bei der Verarbeitung von Hochauflösebildern. In unseren Experimenten haben wir nachgewiesen, dass die beiden Diskriminatoren sich gegenseitig ergänzen, um die Genauigkeit der menschlichen Segmentierung zu verbessern. Das vorgeschlagene Framework ist in der Lage, eine wettbewerbsfähige Segmentierungsgenauigkeit im Vergleich zu den neuesten Methoden zu erzielen: mIoU=46,81% und 59,91% auf LIP und PASCAL-Person-Part jeweils. Auf dem relativ kleinen Datensatz PPSS zeigt unser vortrainiertes Modell beeindruckende Generalisierungsfähigkeiten. Der Code ist öffentlich verfügbar unter https://github.com/RoyalVane/MMAN.