VoxelNet: End-to-End-Lernen für die punktbasierte 3D-Objekterkennung

Die genaue Erkennung von Objekten in 3D-Punktwolken ist ein zentrales Problem in vielen Anwendungen, wie autonomer Navigation, Hausputzrobotern und erweiterter/Virtueller Realität. Um eine hochdichte LiDAR-Punktwolke mit einem Region Proposal Network (RPN) zu verbinden, haben die meisten bisherigen Ansätze sich auf handgefertigte Merkmalsrepräsentationen konzentriert, zum Beispiel eine Vogelperspektive-Projektion. In dieser Arbeit eliminieren wir das Bedürfnis nach manueller Merkmalsextraktion für 3D-Punktwolken und schlagen VoxelNet vor, ein generisches 3D-Erkennungsnetzwerk, das Merkmalsextraktion und Begrenzungsbox-Vorhersage in einer einzigen Stufe vereint und als end-to-end trainierbares tiefes Netzwerk implementiert wird. Insbesondere unterteilt VoxelNet eine Punktwolke in gleichmäßig verteilte 3D-Voxel und transformiert die Punkte innerhalb jedes Voxels durch den neu eingeführten Voxel Feature Encoding (VFE)-Layer in eine einheitliche Merkmalsrepräsentation. Auf diese Weise wird die Punktwolke als beschreibende volumetrische Repräsentation kodiert, die dann an ein RPN weitergegeben wird, um Erkennungen zu generieren. Experimente am KITTI-Automobil-Erkennungsbenchmark zeigen, dass VoxelNet die derzeit besten LiDAR-basierten 3D-Erkennungsmethoden um einen großen Vorsprung übertrifft. Darüber hinaus lernt unser Netzwerk eine effektive diskriminative Repräsentation von Objekten mit verschiedenen Geometrien, was zu vielversprechenden Ergebnissen bei der 3D-Erkennung von Fußgängern und Radfahrern führt, basierend allein auf LiDAR-Daten.