HyperAIHyperAI

Command Palette

Search for a command to run...

Voxel R-CNN: Hin zu einer hochleistungsfähigen, auf Voxel basierenden 3D-Objekterkennung

Jiajun Deng Shaoshuai Shi Peiwei Li Wengang Zhou Yanyong Zhang Houqiang Li

Zusammenfassung

Neuere Fortschritte im Bereich der 3D-Objektdetektion beruhen stark auf der Art und Weise, wie 3D-Daten repräsentiert werden, d. h. entweder über Voxel-basierte oder Punkt-basierte Darstellungen. Viele aktuelle hochleistungsfähige 3D-Detektoren basieren auf Punkten, da diese Struktur präzise Punktpositionen besser bewahren kann. Dennoch führen punktuelle Merkmale aufgrund der ungeordneten Speicherung zu hohen Rechenaufwänden. Im Gegensatz dazu eignet sich die Voxel-basierte Struktur besser für die Merkmalsextraktion, erzielt jedoch oft eine geringere Genauigkeit, da die Eingabedaten in Gitter unterteilt werden. In diesem Paper verfolgen wir einen leicht abweichenden Ansatz – wir stellen fest, dass eine präzise Positionierung der Rohpunkte für eine hochleistungsfähige 3D-Objektdetektion nicht unbedingt erforderlich ist und dass auch eine grobe Voxel-Granularität ausreichende Detektionsgenauigkeit bieten kann. Ausgehend von dieser Erkenntnis entwickeln wir einen einfachen, aber effektiven, Voxel-basierten Ansatz namens Voxel R-CNN. Durch die vollständige Ausnutzung von Voxel-Merkmale in einem zweistufigen Ansatz erreicht unsere Methode eine vergleichbare Detektionsgenauigkeit wie aktuelle state-of-the-art punktbasierte Modelle, jedoch mit einem Bruchteil des Rechenaufwands. Voxel R-CNN besteht aus einem 3D-Backbone-Netzwerk, einem 2D-Bird-Eye-View (BEV)-Region Proposal Network und einem Detektionskopf. Zur direkten Extraktion von RoI-Merkmalen aus den Voxel-Merkmale wird ein speziell entwickeltes Voxel RoI-Pooling eingeführt, das zur weiteren Verfeinerung dient. Umfassende Experimente werden auf dem weit verbreiteten KITTI-Datensatz und dem jüngeren Waymo Open Dataset durchgeführt. Unsere Ergebnisse zeigen, dass Voxel R-CNN gegenüber bestehenden Voxel-basierten Methoden eine höhere Detektionsgenauigkeit erzielt und gleichzeitig eine Echtzeit-Frames pro Sekunde (FPS)-Verarbeitungsrate beibehält, nämlich 25 FPS auf einer NVIDIA RTX 2080 Ti GPU. Der Quellcode ist unter \url{https://github.com/djiajunustc/Voxel-R-CNN} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Voxel R-CNN: Hin zu einer hochleistungsfähigen, auf Voxel basierenden 3D-Objekterkennung | Paper | HyperAI