Schwach beschriftete semantische Segmentierung für Fahrzeugumgebungen

Zustandsbestimmende Techniken im Bereich der schwach beschrifteten semantischen Segmentierung (Weakly-Supervised Semantic Segmentation, WSSS) mit Bild-Level-Labels zeigen erhebliche Leistungsabfälle auf Fahrzeug-Szenen-Datensätzen wie Cityscapes. Um dieser Herausforderung zu begegnen, entwickeln wir einen neuen WSSS-Framework, der speziell auf Fahrzeug-Szenen-Datensätze abgestimmt ist. Aufgrund einer umfassenden Analyse der Datensatzcharakteristika nutzen wir Contrastive Language-Image Pre-training (CLIP) als Basismodell, um Pseudomasken zu generieren. CLIP wirft jedoch zwei zentrale Probleme auf: (1) Die Pseudomasken von CLIP sind unzureichend in der Darstellung kleiner Objektklassen, und (2) diese Masken enthalten erhebliche Rauschanteile. Wir stellen hierfür jeweils Lösungen vor: (1) Wir entwickeln Global-Local View Training, eine Methode, die kleine Bildpatches nahtlos während des Trainings integriert und somit die Fähigkeit des Modells zur Erkennung kleiner, jedoch kritischer Objekte in Fahrzeug-Szenen (z. B. Verkehrslichter) signifikant verbessert. (2) Wir führen Consistency-Aware Region Balancing (CARB) ein, eine neuartige Technik, die zuverlässige und verrauschte Regionen anhand der Konsistenz zwischen CLIP-Masken und Segmentierungsvorhersagen identifiziert. Durch adaptives Verstärken des Verlustgewichts werden zuverlässige Pixel gegenüber verrauschten Pixeln bevorzugt. Bemerkenswerterweise erreicht das vorgeschlagene Verfahren eine mIoU von 51,8 % auf dem Testdatensatz von Cityscapes und zeigt damit großes Potenzial als starker WSSS-Baselines für Fahrzeug-Szenen-Datensätze. Experimentelle Ergebnisse auf CamVid und WildDash2 belegen die Wirksamkeit unseres Ansatzes auch auf unterschiedlichen Datensätzen, selbst bei kleineren Datensätzen oder visuell anspruchsvollen Bedingungen. Der Quellcode ist unter https://github.com/k0u-id/CARB verfügbar.