vor 2 Monaten

Lernen von Tiefen-gesteuerten Faltungen für die monokulare 3D-Objekterkennung

Mingyu Ding; Yuqi Huo; Hongwei Yi; Zhe Wang; Jianping Shi; Zhiwu Lu; Ping Luo

Abstract

Die 3D-Objekterkennung aus einem einzelnen Bild ohne LiDAR ist eine herausfordernde Aufgabe aufgrund des Mangels an genauen Tiefeninformationen. Konventionelle 2D-Faltungen sind für diese Aufgabe ungeeignet, da sie nicht in der Lage sind, lokale Objektinformationen und deren Skalen zu erfassen, die für die 3D-Objekterkennung entscheidend sind. Um die 3D-Struktur besser darzustellen, wandeln vorherige Arbeiten in der Regel Tiefenkarten, die aus 2D-Bildern geschätzt werden, in eine Pseudo-LiDAR-Darstellung um und wenden dann bestehende 3D-Punktwolken-basierte Objekterkennungsverfahren an. Ihre Ergebnisse hängen jedoch stark von der Genauigkeit der geschätzten Tiefenkarten ab, was zu suboptimaler Leistung führt. In dieser Arbeit verbessern wir stattdessen die grundlegenden 2D-vollständigen Faltungen durch den Vorschlag eines neuen lokalen Faltungsnetzes (LCN), das als tiefengesteuertes dynamisches Tiefenweises Dilatations-LCN (Depth-guided Dynamic-Depthwise-Dilated LCN (D$^4$LCN)) bezeichnet wird. Hierbei können die Filter und ihre Rezeptivfelder automatisch aus bildbasierten Tiefenkarten gelernt werden, sodass verschiedene Pixel verschiedener Bilder unterschiedliche Filter haben. D$^4$LCN überwindet die Einschränkungen konventioneller 2D-Faltungen und verringert den Abstand zwischen der Bildrepräsentation und der 3D-Punktwolkenrepräsentation. Ausführliche Experimente zeigen, dass D$^4$LCN bestehende Arbeiten um erhebliche Margen übertrifft. Zum Beispiel erreicht D$^4$LCN im moderaten Szenario gegenüber dem aktuellen Stand der Technik auf KITTI eine relative Verbesserung von 9,1 %. Der Code ist unter https://github.com/dingmyu/D4LCN verfügbar.