All-Pairs-Konsistenz-Lernen für schwach beschriftete semantische Segmentierung

In dieser Arbeit schlagen wir eine neue transformerbasierte Regularisierung vor, um Objekte bei der schwach überwachten semantischen Segmentierung (Weakly Supervised Semantic Segmentation, WSSS) präziser zu lokalisieren. Bei der bildbasierten WSSS werden Class Activation Maps (CAMs) verwendet, um Objektllokalisierungen als Pseudosegmentationslabels zu generieren. Um das Problem der partiellen Aktivierung von CAMs anzugehen, wird Konsistenz-Regulierung eingesetzt, um die Invarianz der Aktivierungsintensität unter verschiedenen Bildaugmentierungen zu gewährleisten. Allerdings ignorieren solche Ansätze die paarweisen Beziehungen zwischen Regionen innerhalb jeder CAM, welche Kontextinformationen erfassen und ebenfalls invariant gegenüber verschiedenen Bildansichten sein sollten. Um dies zu beheben, schlagen wir eine neue All-Pairs-Konsistenz-Regulierung (All-Pairs Consistency Regularization, ACR) vor. Gegeben ein Paar augmentierter Bildansichten regularisiert unser Ansatz sowohl die Aktivierungsintensitäten zwischen den beiden Ansichten als auch die Affinität zwischen den Regionen innerhalb jeder einzelnen Ansicht. Wir nutzen Vision Transformers, da deren Selbst-Attention-Mechanismus die paarweisen Affinitäten natürlicherweise einbettet. Dadurch lässt sich die Distanz zwischen den Aufmerksamkeitsmatrizen augmentierter Bildpaare einfach regularisieren. Zusätzlich führen wir eine neuartige klassenbasierte Lokalisierungsmethode ein, die die Gradienten des Class-Token nutzt. Unser Ansatz lässt sich nahtlos in bestehende WSSS-Methoden auf Basis von Transformers integrieren, ohne die Architektur zu modifizieren. Wir evaluieren unsere Methode auf den Datensätzen PASCAL VOC und MS COCO. Unser Ansatz erzeugt deutlich bessere Klassenlokalisierungskarten (67,3 % mIoU auf PASCAL VOC train), was zu überlegener WSSS-Leistung führt.