3D-Packing für die selbstüberwachte monokulare Tiefenschätzung

Obwohl Kameras weit verbreitet sind, setzen robotische Plattformen typischerweise auf aktive Sensoren wie LiDAR für die direkte 3D-Wahrnehmung. In dieser Arbeit schlagen wir eine neuartige selbstüberwachte monoökulare Tiefenschätzungsmethode vor, die Geometrie mit einem neuen tiefen neuronalen Netzwerk, PackNet, kombiniert, das ausschließlich aus unbeschrifteten monoökularen Videos gelernt wird. Unsere Architektur nutzt innovative symmetrische Packing- und Unpacking-Blöcke, um gemeinsam zu lernen, detaillierte Darstellungen unter Verwendung von 3D-Konvolutionen zu komprimieren und zu dekomprimieren. Trotz der Selbstüberwachung übertrifft unsere Methode andere selbst-, semi- und vollständig überwachte Methoden im KITTI-Benchmark. Der 3D-induktive Bias in PackNet ermöglicht es, sich mit der Eingabeauflösung und der Anzahl der Parameter zu skalieren, ohne überangepasst zu werden, was eine bessere Generalisierung auf außerdomänen Daten wie dem NuScenes-Datensatz ermöglicht. Zudem erfordert sie keine umfangreiche überwachte Vortrainingsphase auf ImageNet und kann in Echtzeit ausgeführt werden. Schließlich veröffentlichen wir DDAD (Dense Depth for Automated Driving), einen neuen Datensatz für städtisches Fahren mit anspruchsvoller und genauer Tiefenschätzung dank langreichweitiger und dichterer Ground-Truth-Tiefendaten, die von hochdichten LiDARs erzeugt wurden, die weltweit auf einer Flotte autonomer Fahrzeuge montiert sind.