Semantische Korrelation gefördert variabler Kontext für die Segmentierung

Kontext ist entscheidend für die semantische Segmentierung. Aufgrund der vielfältigen Formen von Objekten und ihrer komplexen Anordnung in verschiedenen Szenenbildern weisen die räumlichen Skalen und Formen der Kontexte für verschiedene Objekte eine erhebliche Variation auf. Es ist daher ineffektiv oder ineffizient, kontextuelle Informationen aus einem vordefinierten, festen Bereich zu aggregieren. In dieser Arbeit schlagen wir vor, für jeden Pixel eine skalen- und formvariante semantische Maske zu generieren, um den Kontextbereich zu begrenzen. Dazu führen wir zunächst eine neuartige Paar-Convolution ein, um die semantische Korrelation eines Paars zu schätzen und darauf basierend eine Formmaske zu erzeugen. Unter Verwendung des abgeleiteten räumlichen Umfangs des Kontextbereichs entwickeln wir eine formvariante Convolution, deren Empfindlichkeitsfeld durch die formbasierte Maske gesteuert wird, die sich je nach Erscheinungsbild der Eingabe verändert. Auf diese Weise aggregiert das vorgeschlagene Netzwerk die Kontextinformationen eines Pixels aus einem semantisch korrelierten Bereich anstelle eines vordefinierten, festen Bereichs. Darüber hinaus wird ein Label-Denoising-Modell vorgestellt, um falsche Vorhersagen zu reduzieren, die durch verrauschte niedrigstufige Merkmale verursacht werden. Ohne zusätzliche Hilfsmittel erreicht das vorgeschlagene Segmentierungsnetzwerk konsistent neue SOTA-Ergebnisse auf sechs öffentlichen Segmentierungsdatensätzen.