HyperAIHyperAI

Command Palette

Search for a command to run...

Multispektrale Video-Semantische Segmentierung: Ein Benchmark-Datensatz und eine Baseline

Li Cheng Alan L. Yuille Jiaying Zhao Zongwei Zhou Cheng Bian Jingjing Li Wei Ji

Zusammenfassung

Robuste und zuverlässige semantische Segmentierung in komplexen Szenen ist für zahlreiche Anwendungen im Alltag entscheidend, wie beispielsweise sicheres autonomes Fahren oder Rettungsmissionen in der Nacht. In den meisten Ansätzen wird typischerweise als Eingabedatenbild RGB-Bild verwendet. Diese zeigen jedoch nur unter günstigen Wetterbedingungen zuverlässige Ergebnisse; bei ungünstigen Bedingungen wie Regen, Überbelichtung oder schlechten Lichtverhältnissen liefern sie häufig unzureichende Leistungen. Dies hat zu einer zunehmenden Forschung im Bereich der multispektralen semantischen Segmentierung geführt, bei der sowohl RGB- als auch thermische Infrarotbilder (RGBT) als Eingabedaten genutzt werden. Dadurch wird eine deutlich robustere Segmentierung von Objekten in komplexen Szenen und unter extremen Bedingungen erreicht. Dennoch beschränkt die aktuelle Fokussierung auf einzelne RGBT-Bilder bestehende Methoden daran, dynamische, realwelttypische Szenen optimal zu bewältigen. Ausgehend von diesen Beobachtungen widmen wir uns in diesem Artikel einer relativ neuen Aufgabe: der semantischen Segmentierung von multispektralen Videos, die wir im Folgenden als Multispectral Video Semantic Segmentation (MVSS) bezeichnen. Dazu wurde eine eigene Datensammlung, die MVSeg-Datenbank, erstellt, bestehend aus 738 kalibrierten RGB- und thermischen Videos, versehen mit 3.545 detaillierten pixelgenauen semantischen Annotationen über 26 Kategorien. Unser Datensatz umfasst eine breite Palette herausfordernder städtischer Szenen sowohl tagsüber als auch nachts. Darüber hinaus stellen wir einen effektiven Baseline-Ansatz für MVSS vor, den wir MVNet nennen. MVNet ist, soweit uns bekannt, das erste Modell, das semantische Repräsentationen gleichzeitig aus multispektralen und zeitlichen Kontexten lernt. Umfassende Experimente wurden mit verschiedenen semantischen Segmentierungsmodellen auf der MVSeg-Datenbank durchgeführt. Experimentell zeigt sich, dass die Nutzung von multispektralen Videoeingaben zu einer signifikanten Verbesserung der semantischen Segmentierung führt; die Wirksamkeit unseres MVNet-Baselines wurde ebenfalls bestätigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp