HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Tiefen-gesteuerten Faltungen für die monokulare 3D-Objekterkennung

Mingyu Ding Yuqi Huo Hongwei Yi Zhe Wang Jianping Shi Zhiwu Lu Ping Luo

Zusammenfassung

Die 3D-Objekterkennung aus einem einzelnen Bild ohne LiDAR ist eine herausfordernde Aufgabe aufgrund des Mangels an genauen Tiefeninformationen. Konventionelle 2D-Faltungen sind für diese Aufgabe ungeeignet, da sie nicht in der Lage sind, lokale Objektinformationen und deren Skalen zu erfassen, die für die 3D-Objekterkennung entscheidend sind. Um die 3D-Struktur besser darzustellen, wandeln vorherige Arbeiten in der Regel Tiefenkarten, die aus 2D-Bildern geschätzt werden, in eine Pseudo-LiDAR-Darstellung um und wenden dann bestehende 3D-Punktwolken-basierte Objekterkennungsverfahren an. Ihre Ergebnisse hängen jedoch stark von der Genauigkeit der geschätzten Tiefenkarten ab, was zu suboptimaler Leistung führt. In dieser Arbeit verbessern wir stattdessen die grundlegenden 2D-vollständigen Faltungen durch den Vorschlag eines neuen lokalen Faltungsnetzes (LCN), das als tiefengesteuertes dynamisches Tiefenweises Dilatations-LCN (Depth-guided Dynamic-Depthwise-Dilated LCN (D4^44LCN)) bezeichnet wird. Hierbei können die Filter und ihre Rezeptivfelder automatisch aus bildbasierten Tiefenkarten gelernt werden, sodass verschiedene Pixel verschiedener Bilder unterschiedliche Filter haben. D4^44LCN überwindet die Einschränkungen konventioneller 2D-Faltungen und verringert den Abstand zwischen der Bildrepräsentation und der 3D-Punktwolkenrepräsentation. Ausführliche Experimente zeigen, dass D4^44LCN bestehende Arbeiten um erhebliche Margen übertrifft. Zum Beispiel erreicht D4^44LCN im moderaten Szenario gegenüber dem aktuellen Stand der Technik auf KITTI eine relative Verbesserung von 9,1 %. Der Code ist unter https://github.com/dingmyu/D4LCN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Tiefen-gesteuerten Faltungen für die monokulare 3D-Objekterkennung | Paper | HyperAI