Unüberwachte Tiefenvervollständigung aus visueller inertialer Odometrie

Wir beschreiben eine Methode zur Inferenz von dichter Tiefeninformation aus Kamerabewegung und spärlicher Tiefenschätzung, die mit einem visuell-inercialen Odometriesystem durchgeführt wird. Im Gegensatz zu Szenarien, in denen Punktwolken von Lidar- oder Strukturlichtsensoren verwendet werden, verfügen wir über einige hundert bis einige tausend Punkte, was nicht ausreicht, um die Topologie der Szene zu erfassen. Unsere Methode erstellt zunächst ein stückweise planares Gerüst der Szene und nutzt dieses dann, um dichte Tiefeninformation unter Verwendung des Bildes sowie der spärlichen Punkte zu inferieren. Wir verwenden ein vorhersagendes multimodales Kriterium, ähnlich dem „Selbstüberwachung“, das die photometrische Konsistenz über die Zeit, die Vorwärts-Rückwärts-Pose-Konsistenz und die geometrische Kompatibilität mit der spärlichen Punktwolke misst. Zudem veröffentlichen wir den ersten visuell-inercialen + Tiefendatensatz, den wir hoffen, zusätzliche Forschungen zur Kombination der komplementären Stärken von visuellen und inercialen Sensoren fördern wird. Um unsere Methode mit früheren Arbeiten zu vergleichen, greifen wir auf das unüberwachte KITTI-Tiefenvervollständigungs-Benchmark zurück und zeigen darin Spitzenleistungen. Der Quellcode ist verfügbar unter: https://github.com/alexklwong/unsupervised-depth-completion-visual-inertial-odometry.