Panoptic nuScenes: Ein großes Benchmark für LiDAR-Panoptic-Segmentation und -Tracking

Die panoptische Szenenverstehens- und Verfolgungsfähigkeit dynamischer Agenten ist entscheidend für Roboter und automatisierte Fahrzeuge, um sich in städtischen Umgebungen sicher zu bewegen. Da LiDAR-Sensoren präzise, illuminiationsunabhängige geometrische Darstellungen der Umgebung liefern, ermöglichen die Aufgabenstellung anhand von LiDAR-Punktwolken zuverlässige Vorhersagen. Allerdings fehlen bestehende Datensätze an Vielfalt hinsichtlich der Art städtischer Szenen und verfügen über eine begrenzte Anzahl dynamischer Objektinstanzen, was sowohl das Lernen dieser Aufgaben als auch eine glaubwürdige Benchmarking-Validierung der entwickelten Methoden beeinträchtigt. In diesem Paper stellen wir den großskaligen Panoptic nuScenes-Benchmark-Datensatz vor, der unseren populären nuScenes-Datensatz durch punktweise Groundtruth-Annotationen für die Aufgaben der semantischen Segmentierung, panoptischen Segmentierung und panoptischen Verfolgung erweitert. Um einen fairen Vergleich zu ermöglichen, liefern wir mehrere starke Baselines für jede dieser Aufgaben auf unserem vorgeschlagenen Datensatz. Darüber hinaus analysieren wir die Schwächen der bestehenden Metriken für panoptische Verfolgung und schlagen die neuartige, instanzzentrierte PAT-Metrik vor, die diese Probleme adressiert. Wir präsentieren umfassende Experimente, die die Überlegenheit von Panoptic nuScenes gegenüber bestehenden Datensätzen belegen, und stellen den Online-Evaluationsserver unter nuScenes.org zur Verfügung. Wir sind überzeugt, dass diese Erweiterung die Forschung zu neuen Methoden für das Szenenverstehen dynamischer städtischer Umgebungen beschleunigen wird.