Semisupervisierte semantische Segmentierung mit prototypenbasierter Konsistenzregularisierung

Semi-supervisedes semantisches Segmentieren erfordert, dass das Modell die Label-Informationen aus einer begrenzten Anzahl annotierter Bilder effektiv auf unbeschriftete Bilder überträgt. Eine zentrale Herausforderung bei dieser Aufgabe der pro-Pixel-Vorhersage ist die große innerhalb-Klasse-Variabilität, d.h., Regionen derselben Klasse können selbst innerhalb eines Bildes sehr unterschiedlich aussehen. Diese Vielfalt erschwert die Übertragung von Labels von Pixel zu Pixel erheblich. Um dieses Problem anzugehen, schlagen wir einen neuartigen Ansatz vor, der die Verteilung innerhalb-Klasse-Features regularisiert, um die Schwierigkeit der Label-Übertragung zu verringern. Konkret fördert unser Ansatz die Konsistenz zwischen der Vorhersage eines linearen Prädiktors und der Ausgabe eines prototypenbasierten Prädiktors. Dadurch wird implizit sichergestellt, dass Features derselben Pseudo-Klasse mindestens einem innerhalb-Klasse-Prototyp nahe liegen, gleichzeitig aber weit von den anderen zwischen-Klasse-Prototypen entfernt bleiben. Durch die zusätzliche Einbindung von CutMix-Operationen und einer sorgfältig entworfenen Strategie zur Pflege von Prototypen entwickeln wir ein semi-supervisedes semantisches Segmentierungsverfahren, das in umfassenden Experimenten auf den Benchmarks Pascal VOC und Cityscapes die bisher besten Methoden deutlich übertrifft.