Ist Pseudo-Lidar für die monokulare 3D-Objekterkennung erforderlich?

Neuere Fortschritte bei der 3D-Objekterkennung aus Einzelbildern nutzen die monokulare Tiefenschätzung, um 3D-Punktwolken zu generieren und Kameras somit zu Pseudo-LiDAR-Sensoren zu machen. Diese zweistufigen Detektoren profitieren von der Genauigkeit des Zwischennetzes zur Tiefenschätzung, das selbst ohne manuelle Etikettierung durch großskaliges selbstüberwachtes Lernen verbessert werden kann. Dennoch neigen sie im Vergleich zu end-to-end-Methoden stärker zu Überanpassung, sind komplexer und der Leistungsabstand zu vergleichbaren LiDAR-basierten Detektoren bleibt signifikant. In dieser Arbeit präsentieren wir DD3D, einen end-to-end, einstufigen, monokularen 3D-Objektdetektor, der wie Pseudo-LiDAR-Methoden von Tiefen-Vortrainierung profitieren kann, jedoch deren Einschränkungen vermeidet. Unser Architekturkonzept ermöglicht eine effektive Informationsübertragung zwischen der Tiefenschätzung und der 3D-Objekterkennung und erlaubt es uns, mit der Menge unlabeled Vortrainingsdaten zu skalieren. Unser Ansatz erreicht state-of-the-art-Ergebnisse auf zwei anspruchsvollen Benchmarks: 16,34 % und 9,28 % AP für Fahrzeuge und Fußgänger (jeweils) auf dem KITTI-3D-Benchmark sowie 41,5 % mAP auf NuScenes.