Selbstüberwachte Sparse-to-Dense: Selbstüberwachte Tiefenvervollständigung aus LiDAR- und Monokularkamera-Daten

Die Tiefenvervollständigung, eine Technik zur Schätzung eines dichten Tiefenbildes aus spärlichen Tiefenmessungen, hat eine Vielzahl von Anwendungen in der Robotik und im autonomen Fahren. Allerdings stellt die Tiefenvervollständigung drei Hauptherausforderungen: das unregelmäßige Abstandsprofil in den spärlichen Tiefeneingaben, die Schwierigkeit bei der Verarbeitung mehrerer Sensor-modalitäten (wenn Farbbilder verfügbar sind), sowie den Mangel an dichten, pixelgenauen Referenz-Tiefenlabels. In dieser Arbeit adressieren wir alle diese Herausforderungen. Insbesondere entwickeln wir ein tiefes Regressionsmodell, um eine direkte Abbildung von spärlichen Tiefendaten (und Farbbildern) auf dichte Tiefendaten zu lernen. Zudem schlagen wir einen selbstüberwachten Trainingsrahmen vor, der nur Sequenzen von Farbbildern und spärlichen Tiefendaten erfordert und keine dichten Tiefenlabels benötigt. Unsere Experimente zeigen, dass unser Netzwerk, wenn es mit halb-dichten Annotationen trainiert wird, den aktuellen Stand der Technik in Bezug auf Genauigkeit erreicht und zum Zeitpunkt der Einreichung den besten Ansatz im KITTI-Tiefenvervollständigungsbenchmark darstellt. Darüber hinaus übertrifft der selbstüberwachte Rahmen mehrere bestehende Lösungen, die ebenfalls mit halb-dichten Annotationen trainiert wurden.