VoxelNeXt: Vollständig spärliches VoxelNet für die 3D-Objekterkennung und -verfolgung

3D-Objektdetektoren basieren in der Regel auf handgefertigten Proxy-Elementen, beispielsweise Anchors oder Zentren, und übertragen damit gut untersuchte 2D-Frameworks in die 3D-Welt. Daher müssen seltene Voxel-Features verdichtet und durch dichte Vorhersageköpfe verarbeitet werden, was zwangsläufig zusätzlichen Rechenaufwand verursacht. In diesem Paper stellen wir stattdessen VoxelNext für eine vollständig seltene 3D-Objektdetektion vor. Unser zentrales Konzept besteht darin, Objekte direkt auf Basis seltener Voxel-Features vorherzusagen, ohne auf handgefertigte Proxy-Elemente angewiesen zu sein. Unser leistungsstarkes, sparses Faltungsnetzwerk VoxelNeXt erkennt und verfolgt 3D-Objekte ausschließlich über Voxel-Features. Es handelt sich um einen eleganten und effizienten Rahmen, der weder eine Umwandlung von spärlich zu dicht noch eine NMS-Nachverarbeitung erfordert. Unsere Methode erreicht auf dem nuScenes-Datensatz ein besseres Geschwindigkeits-Genauigkeits-Verhältnis im Vergleich zu anderen führenden Detektoren. Erstmals zeigen wir, dass eine vollständig seltene, auf Voxel basierende Darstellung für die LIDAR-3D-Objekterkennung und -verfolgung gut funktioniert. Umfangreiche Experimente auf den Benchmarks nuScenes, Waymo und Argoverse2 bestätigen die Wirksamkeit unseres Ansatzes. Ohne zusätzliche technische Spielereien übertrifft unser Modell alle bestehenden LIDAR-Methoden auf dem nuScenes-Tracking-Testbenchmark.