Command Palette
Search for a command to run...
VoxelNet: Ende-zu-Ende-Lernen für die 3D-Objekterkennung auf Basis von Punktwolken
VoxelNet: Ende-zu-Ende-Lernen für die 3D-Objekterkennung auf Basis von Punktwolken
Zhou Yin Tuzel Oncel
Zusammenfassung
Die präzise Erkennung von Objekten in 3D-Punktwolken stellt ein zentrales Problem in zahlreichen Anwendungen dar, beispielsweise bei der autonomen Navigation, Haushaltsrobotern sowie in erweiterten oder virtuellen Realitäten. Um eine hochgradig spärliche LiDAR-Punktwolke mit einem Region Proposal Network (RPN) zu verbinden, haben die meisten bestehenden Ansätze sich auf handgefertigte Merkmalsrepräsentationen konzentriert, etwa die Projektion aus Vogelperspektive. In dieser Arbeit eliminieren wir den Bedarf an manueller Merkmalsingenieurarbeit für 3D-Punktwolken und stellen VoxelNet vor, ein generisches 3D-Erkennungsnetzwerk, das Merkmalsextraktion und die Vorhersage von Bounding Boxes in einem einzigen, end-to-end trainierbaren tiefen Netzwerk integriert. Konkret unterteilt VoxelNet eine Punktwolke in gleichmäßig verteilte 3D-Voxels und transformiert die Punkte innerhalb jedes Voxel in eine einheitliche Merkmalsrepräsentation mittels einer neu eingeführten Voxel Feature Encoding (VFE)-Schicht. Auf diese Weise wird die Punktwolke als beschreibende volumetrische Darstellung kodiert, die anschließend mit einem RPN zur Generierung von Objekterkennungen verbunden wird. Experimente am KITTI-Autodetektionsbenchmark zeigen, dass VoxelNet die derzeitigen state-of-the-art-Methoden für LiDAR-basierte 3D-Detektion deutlich übertrifft. Darüber hinaus lernt unser Netzwerk eine effektive, differenzierende Repräsentation von Objekten mit unterschiedlichen Geometrien, was zu vielversprechenden Ergebnissen bei der 3D-Detektion von Fußgängern und Radfahrern auf Basis allein von LiDAR-Daten führt.