Voxel R-CNN: Hin zu einer hochleistungsfähigen, auf Voxel basierenden 3D-Objekterkennung

Neuere Fortschritte im Bereich der 3D-Objektdetektion beruhen stark auf der Art und Weise, wie 3D-Daten repräsentiert werden, d. h. entweder über Voxel-basierte oder Punkt-basierte Darstellungen. Viele aktuelle hochleistungsfähige 3D-Detektoren basieren auf Punkten, da diese Struktur präzise Punktpositionen besser bewahren kann. Dennoch führen punktuelle Merkmale aufgrund der ungeordneten Speicherung zu hohen Rechenaufwänden. Im Gegensatz dazu eignet sich die Voxel-basierte Struktur besser für die Merkmalsextraktion, erzielt jedoch oft eine geringere Genauigkeit, da die Eingabedaten in Gitter unterteilt werden. In diesem Paper verfolgen wir einen leicht abweichenden Ansatz – wir stellen fest, dass eine präzise Positionierung der Rohpunkte für eine hochleistungsfähige 3D-Objektdetektion nicht unbedingt erforderlich ist und dass auch eine grobe Voxel-Granularität ausreichende Detektionsgenauigkeit bieten kann. Ausgehend von dieser Erkenntnis entwickeln wir einen einfachen, aber effektiven, Voxel-basierten Ansatz namens Voxel R-CNN. Durch die vollständige Ausnutzung von Voxel-Merkmale in einem zweistufigen Ansatz erreicht unsere Methode eine vergleichbare Detektionsgenauigkeit wie aktuelle state-of-the-art punktbasierte Modelle, jedoch mit einem Bruchteil des Rechenaufwands. Voxel R-CNN besteht aus einem 3D-Backbone-Netzwerk, einem 2D-Bird-Eye-View (BEV)-Region Proposal Network und einem Detektionskopf. Zur direkten Extraktion von RoI-Merkmalen aus den Voxel-Merkmale wird ein speziell entwickeltes Voxel RoI-Pooling eingeführt, das zur weiteren Verfeinerung dient. Umfassende Experimente werden auf dem weit verbreiteten KITTI-Datensatz und dem jüngeren Waymo Open Dataset durchgeführt. Unsere Ergebnisse zeigen, dass Voxel R-CNN gegenüber bestehenden Voxel-basierten Methoden eine höhere Detektionsgenauigkeit erzielt und gleichzeitig eine Echtzeit-Frames pro Sekunde (FPS)-Verarbeitungsrate beibehält, nämlich 25 FPS auf einer NVIDIA RTX 2080 Ti GPU. Der Quellcode ist unter \url{https://github.com/djiajunustc/Voxel-R-CNN} verfügbar.