Virtuelle Sparse-Faltung für die multimodale 3D-Objekterkennung

Kürzlich hat die virtuelle-/Pseudo-Punkt-basierte 3D-Objekterkennung, die durch Tiefenvervollständigung RGB-Bilder und LiDAR-Daten nahtlos fusioniert, große Aufmerksamkeit erhalten. Allerdings sind die aus Bildern generierten virtuellen Punkte sehr dicht, was während der Erkennung eine enorme Menge an redundanten Berechnungen einführt. Gleichzeitig verringern Fehlertoleranzen bei der ungenauen Tiefenvervollständigung die Erkennungsgenauigkeit erheblich. In dieser Arbeit wird ein schnelles und dennoch effektives Backbone-Netzwerk vorgeschlagen, das als VirConvNet bezeichnet wird und auf einem neuen Operator namens VirConv (Virtual Sparse Convolution) basiert, für die virtuelle-Punkt-basierte 3D-Objekterkennung. VirConv besteht aus zwei zentralen Designelementen: (1) StVD (Stochastic Voxel Discard) und (2) NRConv (Noise-Resistant Submanifold Convolution). StVD lindert das Berechnungsproblem, indem es große Mengen an benachbarten redundanten Voxel verwerfen kann. NRConv löst das Rauschproblem, indem es Voxelmerkmale sowohl im 2D-Bildraum als auch im 3D-LiDAR-Raum kodiert. Durch die Integration von VirConv entwickeln wir zunächst einen effizienten Pipeline VirConv-L basierend auf einem frühen Fusiondesign. Anschließend bauen wir einen hochpräzisen Pipeline VirConv-T auf der Grundlage eines transformierten Verfeinerungsverfahrens auf. Schließlich entwickeln wir einen semiautonomen Pipeline VirConv-S basierend auf einem Pseudo-Label-Framework. Im KITTI-Auto-3D-Erkennungstest Rankings erreicht unser VirConv-L eine Genauigkeit von 85% AP mit einer schnellen Laufzeit von 56 ms. Unsere Pipelines VirConv-T und VirConv-S erreichen eine hohe Präzision von 86,3% und 87,2% AP und rangieren aktuell auf dem zweiten und ersten Platz, jeweils. Der Quellcode ist unter https://github.com/hailanyi/VirConv verfügbar.请注意,这里将“semi-supervised”翻译为“semiautonom”,这是为了适应德语中的常用表达。然而,如果上下文明确指出了监督学习的半监督性质,也可以将其翻译为“halb überwacht”。