Schwach beschriftete semantische Segmentierung mit Lernen von Visual Words und hybrider Pooling

Schwach beschriftete semantische Segmentierung (Weakly-Supervised Semantic Segmentation, WSSS) Methoden, die mit Bild-Level-Labels arbeiten, trainieren in der Regel ein Klassifikationsnetzwerk, um Klassifikations-Aktivierungs-Karten (Class Activation Maps, CAMs) als erste grobe Segmentierungslabels zu generieren. Derzeitige WSSS-Methoden erzielen jedoch weiterhin weit unter den erwarteten Leistungen, da die verwendeten CAMs zwei grundlegende Probleme aufweisen: Erstens konzentrieren sie sich typischerweise nur auf teilweise diskriminative Objektregionen, und zweitens enthalten sie häufig unnütze Hintergrundregionen. Diese beiden Schwächen resultieren aus der alleinigen Bild-Level-Supervision und der Aggregation globaler Informationen während des Trainings des Klassifikationsnetzwerks. In dieser Arbeit stellen wir einen visuellen Wörter-Lernmodul und einen hybriden Pooling-Ansatz vor und integrieren diese in das Klassifikationsnetzwerk, um die genannten Probleme zu mildern. Im visuellen Wörter-Lernmodul bekämpfen wir das erste Problem dadurch, dass wir das Klassifikationsnetzwerk dazu zwingen, fein granulare visuelle Wörter als Labels zu lernen, wodurch größere Objektumfänge erkannt werden können. Insbesondere werden die visuellen Wörter mittels eines Codebuchs gelernt, das über zwei vorgeschlagene Strategien aktualisiert werden kann: eine lernbasierte Strategie und eine Memory-Bank-Strategie. Das zweite Problem der CAMs wird durch den vorgeschlagenen hybriden Pooling-Ansatz reduziert, der sowohl globale Durchschnitts- als auch lokale diskriminative Informationen integriert, um gleichzeitig die Vollständigkeit der Objekte zu gewährleisten und Hintergrundregionen zu minimieren. Wir evaluieren unsere Methode auf den Datensätzen PASCAL VOC 2012 und MS COCO 2014. Ohne zusätzliche Aufmerksamkeitspriorisierungen erreicht unsere Methode auf den Val- und Test-Teilmengen des PASCAL VOC-Datensatzes jeweils 70,6 % bzw. 70,7 % mIoU und 36,2 % mIoU auf der Val-Menge des MS COCO-Datensatzes – Werte, die die Leistung der derzeit besten WSSS-Methoden deutlich übertreffen.