Schwach beschriftete semantische Segmentierung mittels adversarischer Lernverfahren für Klassifikator und Rekonstruktor

In der schwach beschrifteten semantischen Segmentierung (Weakly Supervised Semantic Segmentation, WSSS) weisen Class Activation Maps (CAMs) typischerweise zwei Probleme auf: 1) Sie decken nicht die gesamte Objektregion ab, und 2) sie werden auch auf irrelevanten Bereichen aktiviert. Um diese Probleme anzugehen, schlagen wir einen neuartigen WSSS-Framework vor, der auf adversarischer Lernung zwischen einem Klassifikator und einem Bildrekonstruktor basiert. Wenn ein Bild perfekt in klassenweise Segmente zerlegt ist, kann die Information (z. B. Farbe oder Textur) eines einzelnen Segments nicht aus den anderen Segmenten abgeleitet werden. Daher kann die Inferierbarkeit zwischen den Segmenten als Maß für die Genauigkeit der Segmentierung dienen. Wir quantifizieren die Inferierbarkeit als Rekonstruktionsqualität eines Segments aus den anderen Segmenten. Wenn ein Segment aus den anderen Segmenten rekonstruiert werden kann, ist es ungenau. Um dieses Konzept in der WSSS umzusetzen, trainieren wir zwei Modelle gleichzeitig: einen Klassifikator, der CAMs erzeugt, um das Bild in Segmente zu zerlegen, und einen Rekonstruktor, der die Inferierbarkeit zwischen den Segmenten misst. Ähnlich wie bei GANs liefern sich die beiden Netzwerke bei alternativem adversarischem Training gegenseitig positive Rückkopplung. Wir bestätigen die Überlegenheit des vorgeschlagenen Frameworks durch umfassende Ablationstudien. Unsere Methode erreicht neue SOTA-Ergebnisse sowohl auf PASCAL VOC 2012 als auch auf MS COCO 2014. Der Quellcode ist unter https://github.com/sangrockEG/ACR verfügbar.