HyperAIHyperAI
vor 17 Tagen

Multispektrale Video-Semantische Segmentierung: Ein Benchmark-Datensatz und eine Baseline

{Li Cheng, Alan L. Yuille, Jiaying Zhao, Zongwei Zhou, Cheng Bian, Jingjing Li, Wei Ji}
Multispektrale Video-Semantische Segmentierung: Ein Benchmark-Datensatz und eine Baseline
Abstract

Robuste und zuverlässige semantische Segmentierung in komplexen Szenen ist für zahlreiche Anwendungen im Alltag entscheidend, wie beispielsweise sicheres autonomes Fahren oder Rettungsmissionen in der Nacht. In den meisten Ansätzen wird typischerweise als Eingabedatenbild RGB-Bild verwendet. Diese zeigen jedoch nur unter günstigen Wetterbedingungen zuverlässige Ergebnisse; bei ungünstigen Bedingungen wie Regen, Überbelichtung oder schlechten Lichtverhältnissen liefern sie häufig unzureichende Leistungen. Dies hat zu einer zunehmenden Forschung im Bereich der multispektralen semantischen Segmentierung geführt, bei der sowohl RGB- als auch thermische Infrarotbilder (RGBT) als Eingabedaten genutzt werden. Dadurch wird eine deutlich robustere Segmentierung von Objekten in komplexen Szenen und unter extremen Bedingungen erreicht. Dennoch beschränkt die aktuelle Fokussierung auf einzelne RGBT-Bilder bestehende Methoden daran, dynamische, realwelttypische Szenen optimal zu bewältigen. Ausgehend von diesen Beobachtungen widmen wir uns in diesem Artikel einer relativ neuen Aufgabe: der semantischen Segmentierung von multispektralen Videos, die wir im Folgenden als Multispectral Video Semantic Segmentation (MVSS) bezeichnen. Dazu wurde eine eigene Datensammlung, die MVSeg-Datenbank, erstellt, bestehend aus 738 kalibrierten RGB- und thermischen Videos, versehen mit 3.545 detaillierten pixelgenauen semantischen Annotationen über 26 Kategorien. Unser Datensatz umfasst eine breite Palette herausfordernder städtischer Szenen sowohl tagsüber als auch nachts. Darüber hinaus stellen wir einen effektiven Baseline-Ansatz für MVSS vor, den wir MVNet nennen. MVNet ist, soweit uns bekannt, das erste Modell, das semantische Repräsentationen gleichzeitig aus multispektralen und zeitlichen Kontexten lernt. Umfassende Experimente wurden mit verschiedenen semantischen Segmentierungsmodellen auf der MVSeg-Datenbank durchgeführt. Experimentell zeigt sich, dass die Nutzung von multispektralen Videoeingaben zu einer signifikanten Verbesserung der semantischen Segmentierung führt; die Wirksamkeit unseres MVNet-Baselines wurde ebenfalls bestätigt.