Pyramid R-CNN: Hin zu besserer Leistung und Anpassungsfähigkeit für die 3D-Objekterkennung

Wir präsentieren einen flexiblen und leistungsstarken Rahmen namens Pyramid R-CNN für die zweistufige 3D-Objektdetektion aus Punktwolken. Aktuelle Ansätze basieren im zweiten Stadium typischerweise auf den interessierenden Punkten oder Voxel für die RoI-Featureextraktion, können jedoch die Sparsamkeit und die nicht gleichmäßige Verteilung dieser Punkte nicht effektiv bewältigen, was zu Fehlern bei der Erkennung entfernter Objekte führen kann. Um dieses Problem zu lösen, schlagen wir ein neuartiges Modul für das zweite Stadium vor, das Pyramid RoI Head genannt wird, das adaptiv Features aus den spärlichen interessierenden Punkten lernt. Der Pyramid RoI Head besteht aus drei Schlüsselkomponenten. Erstens führen wir das RoI-Grid-Pyramid ein, das das Sparsamkeitsproblem durch umfassende Sammlung von interessierenden Punkten für jede RoI pyramidenartig mildert. Zweitens stellen wir RoI-Grid-Attention vor, eine neue Operation, die reichhaltigere Informationen aus spärlichen Punkten durch die Integration klassischer auf Aufmerksamkeit basierender und graphbasierte Punktbetrachtungsoperatoren in einer einheitlichen Formulierung kodiert. Drittens präsentieren wir das Density-Aware Radius Prediction (DARP)-Modul, das sich an unterschiedliche Punktdichteebenen anpassen kann, indem es den Fokusbereich der RoIs dynamisch anpasst. Durch die Kombination dieser drei Komponenten ist unser Pyramid RoI Head robust gegenüber spärlichen und ungleichmäßigen Bedingungen und kann auf verschiedenen 3D-Backbones angewendet werden, um die Detektionsleistung konsistent zu verbessern. Ausführliche Experimente zeigen, dass Pyramid R-CNN sowohl auf dem KITTI-Datensatz als auch auf dem Waymo Open Datensatz die derzeit besten 3D-Detektionsmodelle mit einem erheblichen Abstand übertrifft.