Selbstüberwachte Differenzdetektion für schwach überwachte semantische Segmentierung

Um die mit der Annotation für das Training von Semantiksegmentierungsmodellen verbundenen Kosten zu minimieren, haben Forscher umfassend schwach beschriftete Segmentierungsansätze untersucht. Bei den derzeit gängigen Methoden der schwach überwachten Segmentierung basiert der am häufigsten verwendete Ansatz auf Visualisierung. Allerdings entsprechen die Visualisierungsergebnisse im Allgemeinen nicht der Semantiksegmentierung. Um daher unter schwach überwachten Bedingungen eine genaue Semantiksegmentierung zu erzielen, ist es notwendig, Abbildungsfunktionen zu berücksichtigen, die die Visualisierungsergebnisse in Semantiksegmentierung überführen. Für solche Abbildungsfunktionen werden üblicherweise bedingte Zufallsfelder sowie iterative Neustrukturierung mittels der Ausgaben eines Segmentierungsmodells eingesetzt. Diese Methoden garantieren jedoch nicht stets eine Verbesserung der Genauigkeit; wenn man diese Abbildungsfunktionen daher mehrfach iterativ anwendet, verbessert sich die Genauigkeit letztendlich nicht oder nimmt sogar ab.In diesem Paper gehen wir davon aus, dass die Ergebnisse der Abbildungsfunktion Rauschen enthalten, und verbessern die Genauigkeit durch Rauschunterdrückung. Um dieses Ziel zu erreichen, schlagen wir einen selbstüberwachten Differenzdetektionsmodul vor, der das Rauschen aus den Ergebnissen der Abbildungsfunktionen abschätzt, indem er die Differenz zwischen den Segmentierungsmasken vor und nach der Abbildung vorhersagt. Die Wirksamkeit des vorgeschlagenen Ansatzes haben wir anhand von Experimenten auf dem PASCAL Visual Object Classes 2012-Datensatz überprüft und erreichten eine Genauigkeit von 64,9 % auf dem Validierungsset und 65,5 % auf dem Testset. Beide Ergebnisse stellen unter den gleichen Bedingungen der schwach überwachten Semantiksegmentierung neue SOTA (State-of-the-Art)-Werte dar.