Weiche Beschriftung für die Semantische Segmentierung: Kohärenz bei der Label-Downsampling-Verarbeitung

Bei der semantischen Segmentierung wird aufgrund begrenzter Ressourcen, der Notwendigkeit, die Bildgröße an die Eingabegröße des Modells anzupassen, oder zur Verbesserung der Datenaugmentation häufig eine Downsampling-Operation auf den Trainingsdaten durchgeführt. Dieses Downsampling verwendet typischerweise unterschiedliche Strategien für die Bild- und die annotierten Label-Daten. Diese Diskrepanz führt zu einer Unstimmigkeit zwischen dem heruntergekoppelten Farbbild und dem entsprechenden Label-Bild, wodurch die Trainingsleistung mit steigendem Downsampling-Faktor erheblich abnimmt. In diesem Artikel integrieren wir die Downsampling-Strategien sowohl für die Bilddaten als auch für die Trainingslabels. Dazu schlagen wir einen neuartigen Ansatz für das Downsampling von Labels mittels Soft-Labeling vor, der die Label-Information nach dem Downsampling besser bewahrt. Dadurch wird eine vollständige Ausrichtung der Soft-Labels an die Bilddaten erreicht, wodurch die Verteilung der abgetasteten Pixel erhalten bleibt. Zudem erzeugt dieser Ansatz zuverlässige Annotationen für unterrepräsentierte semantische Klassen. Insgesamt ermöglicht dies die Ausbildung wettbewerbsfähiger Modelle bei niedrigerer Auflösung. Experimente zeigen, dass der vorgeschlagene Ansatz andere Downsampling-Strategien übertrifft. Darüber hinaus wird für Referenzbenchmarks eine state-of-the-art-Leistung erzielt, wobei jedoch deutlich weniger rechnerische Ressourcen benötigt werden als bei führenden Ansätzen. Der vorgeschlagene Ansatz ermöglicht somit wettbewerbsfähige Forschung in der semantischen Segmentierung unter Ressourcenbeschränkungen.