PV-RCNN: Punkt-Voxel-Feature-Satzabstraktion für die 3D-Objekterkennung

Wir präsentieren ein neues und leistungsstarkes Framework für die 3D-Objekterkennung aus Punktwolken, das PointVoxel-RCNN (PV-RCNN) genannt wird. Unser vorgeschlagener Ansatz integriert tiefgreifend sowohl 3D-Voxel Convolutional Neural Networks (CNNs) als auch PointNet-basierte Mengenabstraktion, um diskriminativere Punktwolkenmerkmale zu lernen. Er nutzt die effizienten Lernfähigkeiten und die hochwertigen Vorschläge der 3D-Voxel-CNNs sowie die flexiblen Rezeptivfelder der PointNet-basierten Netzwerke. Insbesondere fasst das vorgeschlagene Framework die 3D-Szene mit einem 3D-Voxel-CNN durch einen neuartigen Voxel-Mengenabstraktionsmodul in eine kleine Menge von Keypoints zusammen, um nachfolgende Berechnungen zu sparen und repräsentative Szene-Merkmale zu kodieren. Angesichts der hochwertigen 3D-Vorschläge, die durch das Voxel-CNN generiert werden, wird RoI-Grid-Pooling vorgeschlagen, um proposalspezifische Merkmale von den Keypoints auf die RoI-Grid-Punkte abzubilden, wobei mehrere Rezeptivfelder verwendet werden. Im Vergleich zu herkömmlichen Pooling-Operationen kodieren die RoI-Grid-Merkmalpunkte viel reichhaltigere Kontextinformationen zur genauen Schätzung von Objektvertrauenswerten und -positionen. Ausführliche Experimente sowohl auf dem KITTI-Datensatz als auch auf dem Waymo Open Datensatz zeigen, dass unser vorgeschlagenes PV-RCNN nur mit Punktwolken erheblich bessere Ergebnisse als state-of-the-art Methoden der 3D-Erkennung erzielt. Der Quellcode ist unter https://github.com/open-mmlab/OpenPCDet verfügbar.