MUSES: Der Mehrsensorische Semantische Wahrnehmungsdatensatz für das Fahren unter Unsicherheit

Die Erreichung der Stufe-5-Fahrerassistenz in autonomen Fahrzeugen erfordert ein robustes semantisches visuelles Wahrnehmungssystem, das in der Lage ist, Daten von verschiedenen Sensoren unter unterschiedlichen Bedingungen zu verarbeiten. Bestehende semantische Wahrnehmungsdatensätze fehlen jedoch oft wichtige Nicht-Kamera-Modalitäten, die in autonomen Fahrzeugen üblicherweise verwendet werden, oder sie nutzen diese Modalitäten nicht aus, um bei schwierigen Bedingungen die semantischen Annotationen zu unterstützen und zu verbessern. Um dies zu beheben, stellen wir MUSES vor, den MUlti-SEnsor-Semantikdatensatz für das Fahren unter ungünstigen Bedingungen bei erhöhter Unsicherheit. MUSES enthält synchronisierte multimodale Aufzeichnungen mit 2D-Panoptik-Annotationen für 2500 Bilder, die unter verschiedenen Wetter- und Beleuchtungsbedingungen aufgenommen wurden. Der Datensatz integriert eine Rahmenkamera (frame camera), einen Lidar, einen Radar, eine Ereigniskamera (event camera) und einen IMU/GNSS-Sensor. Unprotokoll unseres neuen zweistufigen Panoptik-Annotierungsprozesses erfasst sowohl die Klassen- als auch die Instanzunsicherheit in der Ground Truth und ermöglicht die neu eingeführte Aufgabe des unsicherheitsbewussten Panoptik-Segmentierens neben den standardmäßigen semantischen und Panoptik-Segmentierungsaufgaben. MUSES erweist sich sowohl als effektiv für das Training als auch herausfordernd für die Evaluierung von Modellen unter diversen visuellen Bedingungen und öffnet neue Forschungspfade im Bereich der multimodalen und unsicherheitsbewussten dichten semantischen Wahrnehmung. Unser Datensatz und Benchmark sind öffentlich verfügbar unter https://muses.vision.ee.ethz.ch.