SCIPaD: Einbeziehung räumlicher Hinweise in die unsupervisierte gemeinsame Lernung von Pose und Tiefe

Unüberwachte Ansätze zur monokularen Tiefenschätzung haben in der autonomen Fahrt vielversprechende Leistungen gezeigt. Allerdings stützen sich bestehende Lösungen primär auf eine einfache convolutionale Neuronale Netzwerk-Architektur zur Schätzung der Eigenbewegung (ego-motion), die Schwierigkeiten hat, präzise Kameraposen in dynamischen und komplexen realen Szenarien zu ermitteln. Ungenaue Schätzungen der Kameraposen verschlechtern zwangsläufig die photometrische Rekonstruktion und führen die Tiefennetzwerke mit falschen überwachenden Signalen in die Irre. In diesem Artikel stellen wir SCIPaD vor – einen neuartigen Ansatz, der räumliche Hinweise für die gemeinsame Lernung von Tiefen- und Pose-Informationen integriert. Konkret wird ein vertrauensbasiertes Feature-Flow-Schätzer vorgestellt, der 2D-Feature-Positionstranslationen sowie deren zugehörige Zuverlässigkeitsniveaus ermittelt. Gleichzeitig führen wir einen Positionshinweis-Aggregator ein, der pseudo-3D-Punktwolken aus dem DepthNet und 2D-Feature-Flüsse in homogene räumliche Darstellungen integriert. Schließlich wird ein hierarchischer Positionseingabe-Injector vorgeschlagen, der räumliche Hinweise selektiv in semantische Merkmale einbettet, um eine robuste Schätzung der Kamerapose zu ermöglichen. Umfangreiche Experimente und Analysen belegen die überlegene Leistung unseres Modells im Vergleich zu anderen state-of-the-art-Methoden. Besonders hervorzuheben ist, dass SCIPaD auf dem KITTI Odometry-Datensatz eine Reduktion um 22,2 % des durchschnittlichen Translationsfehlers und um 34,8 % des durchschnittlichen Winkelfehlers für die Kameraposeschätzung erreicht. Der Quellcode ist unter \url{https://mias.group/SCIPaD} verfügbar.