DSGN: Tiefes Stereogeometrie-Netzwerk für die 3D-Objekterkennung

Die meisten modernsten 3D-Objekterkennungssysteme basieren stark auf LiDAR-Sensoren, da zwischen bildbasierten und LiDAR-basierten Methoden ein erheblicher Leistungsunterschied besteht. Dieser Unterschied wird durch die Art der Darstellung für die Vorhersage in 3D-Szenarien verursacht. Unser Verfahren, das als Deep Stereo Geometry Network (DSGN) bezeichnet wird, verringert diesen Leistungsunterschied erheblich, indem es 3D-Objekte auf einer differenzierbaren volumetrischen Darstellung – dem 3D-geometrischen Volumen – erkennt. Diese Darstellung kodiert die 3D-geometrische Struktur effektiv für den regulären 3D-Raum. Mit dieser Darstellung lernen wir Tiefeninformation und semantische Hinweise gleichzeitig. Zum ersten Mal stellen wir eine einfache und effektive einstufige stereobasierte 3D-Erkennungspipeline vor, die die Tiefenschätzung und die Erkennung von 3D-Objekten in einem end-to-end Lernprozess vereint. Unser Ansatz übertrifft frühere stereobasierte 3D-Detektoren (ca. 10 Punkte höher im AP-Wert) und erreicht sogar vergleichbare Ergebnisse mit mehreren LiDAR-basierten Methoden im KITTI 3D-Objekterkennungsranking. Unser Code ist öffentlich verfügbar unter https://github.com/chenyilun95/DSGN.