HyperAIHyperAI
vor 3 Monaten

Zur hierarchischen selbstüberwachten monokularen absoluten Tiefenschätzung für Anwendungen im autonomen Fahren

Feng Xue, Guirong Zhuo, Ziyuan Huang, Wufei Fu, Zhuoyue Wu, Marcelo H. Ang Jr
Zur hierarchischen selbstüberwachten monokularen absoluten Tiefenschätzung für Anwendungen im autonomen Fahren
Abstract

In den letzten Jahren ist die selbstüberwachte Methode zur monokularen Tiefenschätzung zu einer bedeutenden Forschungsrichtung innerhalb des Tiefenschätzungsaufgabenfelds geworden, insbesondere für Anwendungen im Bereich autonomes Fahren. Trotz der erreichten hohen Gesamtgenauigkeit leiden derzeitige Ansätze weiterhin an zwei zentralen Problemen: a) einer ungenauen Objekt-Ebene-Tiefenschätzung und b) einer unsicheren Skalierungsfaktor. Das erste Problem führt zu Phänomenen wie Texture Copy oder liefert ungenaue Objektränder, während das zweite Problem dazu führt, dass aktuelle Methoden zusätzliche Sensoren wie LiDAR zur Bereitstellung von Tiefen-Referenzwerten oder Stereo-Kameras als zusätzliche Trainingsinputs benötigen, was die Implementierung erheblich erschwert. In dieser Arbeit schlagen wir vor, diese beiden Probleme gemeinsam durch die Einführung von DNet anzugehen. Unsere Beiträge sind zweifach: a) Wir stellen eine neuartige dicht verbundene Vorhersage-Schicht (Dense Connected Prediction, DCP) vor, die eine verbesserte Objekt-Ebene-Tiefenschätzung ermöglicht, und b) speziell für Anwendungen im autonomen Fahren führen wir dichte geometrische Einschränkungen (Dense Geometrical Constraints, DGC) ein, sodass ein präziser Skalierungsfaktor ohne zusätzlichen Aufwand für autonome Fahrzeuge rekonstruiert werden kann. Umfangreiche Experimente wurden durchgeführt, wobei sowohl die DCP-Schicht als auch das DGC-Modul als effektiv zur Lösung der oben genannten Probleme nachgewiesen wurden. Durch die DCP-Schicht lassen sich Objektränder in der Tiefenkarte nun deutlicher erkennen, und die Tiefenwerte sind auf Objektebene kontinuierlicher. Zudem wird gezeigt, dass die Leistung des Skalierungsfaktors, der mittels DGC rekonstruiert wird, vergleichbar ist mit derjenigen, die mit echten Referenzwerten erreicht wird, vorausgesetzt, die Kamerahöhe ist bekannt und die Bodenpunkte machen mehr als 1,03 % der Pixel aus. Der Quellcode ist unter https://github.com/TJ-IPLab/DNet verfügbar.