CIAN: Cross-Image AffinitätNetz für schwach überwachte semantische Segmentierung

Schwach überwachte semantische Segmentierung mit nur bildbasierten Labels spart erhebliche menschliche Anstrengungen zur Annotation von pixelgenauen Labels. State-of-the-Art-Methoden basieren auf verschiedenen innovativen Einschränkungen und Heuristiken, um Masken für jedes einzelne Bild zu generieren. Obwohl diese Methoden große Fortschritte erzielt haben, betrachten sie jedes Bild unabhängig voneinander und berücksichtigen nicht die Beziehungen zwischen verschiedenen Bildern. In diesem Artikel argumentieren wir jedoch, dass die Beziehung zwischen Bildern für schwach überwachte Segmentierung entscheidend ist. Denn sie verbindet verwandte Regionen über verschiedene Bilder hinweg, wodurch ergänzende Darstellungen verbreitet werden können, um konsistentere und zusammenhängendere Regionen zu erhalten. Um diese Informationen zu nutzen, schlagen wir ein end-to-end Modul zur Affinität zwischen Bildern vor, das pixelgenaue Beziehungen zwischen Bildern unter Verwendung nur bildbasierter Labels ausnutzt. Dadurch erreicht unser Ansatz eine mittlere Übereinstimmung (mIoU) von 64,3 % auf der Validierungs- und 65,3 % auf der Testmenge des Pascal VOC 2012-Datensatzes. Dies ist ein neuer Stand der Technik bei der schwach überwachten semantischen Segmentierung allein durch die Verwendung von bildbasierten Labels, was die Überlegenheit unseres Ansatzes unterstreicht.