HyperAIHyperAI
vor 11 Tagen

Schwach beschriftete semantische Segmentierung für Fahrzeugumgebungen

Dongseob Kim, Seungho Lee, Junsuk Choe, Hyunjung Shim
Schwach beschriftete semantische Segmentierung für Fahrzeugumgebungen
Abstract

Zustandsbestimmende Techniken im Bereich der schwach beschrifteten semantischen Segmentierung (Weakly-Supervised Semantic Segmentation, WSSS) mit Bild-Level-Labels zeigen erhebliche Leistungsabfälle auf Fahrzeug-Szenen-Datensätzen wie Cityscapes. Um dieser Herausforderung zu begegnen, entwickeln wir einen neuen WSSS-Framework, der speziell auf Fahrzeug-Szenen-Datensätze abgestimmt ist. Aufgrund einer umfassenden Analyse der Datensatzcharakteristika nutzen wir Contrastive Language-Image Pre-training (CLIP) als Basismodell, um Pseudomasken zu generieren. CLIP wirft jedoch zwei zentrale Probleme auf: (1) Die Pseudomasken von CLIP sind unzureichend in der Darstellung kleiner Objektklassen, und (2) diese Masken enthalten erhebliche Rauschanteile. Wir stellen hierfür jeweils Lösungen vor: (1) Wir entwickeln Global-Local View Training, eine Methode, die kleine Bildpatches nahtlos während des Trainings integriert und somit die Fähigkeit des Modells zur Erkennung kleiner, jedoch kritischer Objekte in Fahrzeug-Szenen (z. B. Verkehrslichter) signifikant verbessert. (2) Wir führen Consistency-Aware Region Balancing (CARB) ein, eine neuartige Technik, die zuverlässige und verrauschte Regionen anhand der Konsistenz zwischen CLIP-Masken und Segmentierungsvorhersagen identifiziert. Durch adaptives Verstärken des Verlustgewichts werden zuverlässige Pixel gegenüber verrauschten Pixeln bevorzugt. Bemerkenswerterweise erreicht das vorgeschlagene Verfahren eine mIoU von 51,8 % auf dem Testdatensatz von Cityscapes und zeigt damit großes Potenzial als starker WSSS-Baselines für Fahrzeug-Szenen-Datensätze. Experimentelle Ergebnisse auf CamVid und WildDash2 belegen die Wirksamkeit unseres Ansatzes auch auf unterschiedlichen Datensätzen, selbst bei kleineren Datensätzen oder visuell anspruchsvollen Bedingungen. Der Quellcode ist unter https://github.com/k0u-id/CARB verfügbar.

Schwach beschriftete semantische Segmentierung für Fahrzeugumgebungen | Neueste Forschungsarbeiten | HyperAI