Skalierbare Szenenbewegung aus Punktwolken in der realen Welt

Autonome Fahrzeuge operieren in hochdynamischen Umgebungen, was eine präzise Beurteilung der Bewegungsvorgänge in einer Szene und deren Bewegungsrichtung erfordert. Ein gängiger Ansatz zur Schätzung der 3D-Bewegung, bekannt als Scene Flow, besteht darin, 3D-Punktwolken aus aufeinanderfolgenden LiDAR-Scans zu nutzen. Allerdings waren solche Ansätze bisher durch die geringe Größe realweltbasierter, annotierter LiDAR-Datensätze begrenzt. In dieser Arbeit stellen wir ein neues, großskaliges Datenset für die Scene-Flow-Schätzung vor, das aus entsprechenden verfolgten 3D-Objekten abgeleitet wurde und etwa 1.000-mal größer ist als frühere reale Datensätze hinsichtlich der Anzahl annotierter Frames. Wir zeigen, wie frühere Arbeiten durch die verfügbare Menge an echten LiDAR-Daten eingeschränkt waren, was darauf hindeutet, dass größere Datensätze notwendig sind, um state-of-the-art Vorhersageleistungen zu erreichen. Zudem zeigen wir, dass herkömmliche Heuristiken zur Verarbeitung von Punktwolken, wie beispielsweise die Reduzierung der Punktanzahl (Down-Sampling), die Leistung erheblich verschlechtern, was die Notwendigkeit einer neuen Klasse von Modellen unterstreicht, die auf der vollen Punktwolke effizient arbeiten können. Um dieses Problem anzugehen, führen wir die FastFlow3D-Architektur ein, die Echtzeit-Inferenz auf der vollen Punktwolke ermöglicht. Darüber hinaus entwickeln wir menscheninterpretierbare Metriken, die reale Weltaspekte besser erfassen, indem sie die Eigenbewegung (Ego-Motion) berücksichtigen und eine Aufschlüsselung nach Objekttyp bereitstellen. Wir hoffen, dass dieses Datenset neue Möglichkeiten für die Entwicklung realwelttauglicher Scene-Flow-Systeme eröffnet.