vor 2 Monaten

DSGN++: Die Nutzung von visuellen und räumlichen Beziehungen für stereo-basierte 3D-Detektoren

Chen, Yilun ; Huang, Shijia ; Liu, Shu ; Yu, Bei ; Jia, Jiaya

Abstract

Kamera-basierte 3D-Objekterkennungssysteme werden aufgrund ihrer breiteren Verbreitung und geringeren Kosten im Vergleich zu LiDAR-Sensoren geschätzt. Wir untersuchen zunächst den Stereo-Detektor DSGN hinsichtlich seiner Methoden zur Konstruktion von Stereo-Volumina, die sowohl die 3D-Geometrie als auch die Semantik darstellen. Wir verbessern das Stereomodell und stellen eine erweiterte Version, DSGN++, vor, die darauf abzielt, den effektiven Informationsfluss durch den 2D-zu-3D-Prozess in drei wesentlichen Aspekten zu steigern. Erstens, um die 2D-Information effektiv in ein Stereo-Volumen zu übertragen, schlagen wir eine tiefenweise Ebenenabtastung (Depth-wise Plane Sweeping, DPS) vor, die dichtere Verbindungen ermöglicht und tiefengesteuerte Merkmale extrahiert. Zweitens, um unterschiedlich weit voneinander entfernte Merkmale zu erfassen, präsentieren wir ein neues Stereo-Volumen – das Dual-View-Stereo-Volumen (DSV) – das Frontansichts- und Topansichts-Merkmale integriert und Subvoxel-Tiefe im Kamerabildausschnitt rekonstruiert. Drittens, da der Vordergrundbereich im 3D-Raum weniger dominierend wird, schlagen wir eine multimodale Datenbearbeitungsstrategie – Stereo-LiDAR Copy-Paste – vor, die die Modalkonformität sicherstellt und die Dateneffizienz verbessert. Ohne zusätzliche Verzierungen zeigen umfangreiche Experimente in verschiedenen Modalitätskonfigurationen auf dem bekannten KITTI-Benchmark, dass unsere Methode für alle Kategorien konsistent bessere Ergebnisse als andere kamera-basierte 3D-Detektoren erzielt. Der Quellcode ist unter https://github.com/chenyilun95/DSGN2 verfügbar.