Geometriebewusstes Lernen von Karten für die Kameraperspektivbestimmung

Karten sind ein wesentlicher Bestandteil bildbasierter Kameraperspektivierung und visueller SLAM-Systeme: Sie werden verwendet, um geometrische Restriktionen zwischen Bildern herzustellen, Abweichungen in der relativen Pose-Schätzung zu korrigieren und Kameras nach einem Trackingverlust neu zu lokalisieren. Die genauen Definitionen von Karten sind jedoch oft anwendungsabhängig und für verschiedene Szenarien handgefertigt (z.B. 3D-Landmarken, Linien, Ebenen, Taschen visueller Wörter). Wir schlagen vor, Karten als tiefes neuronales Netzwerk namens MapNet darzustellen, das es ermöglicht, eine datengesteuerte Kartenrepräsentation zu erlernen. Im Gegensatz zu früheren Arbeiten zum Lernen von Karten nutzt MapNet neben Bildern auch günstige und weit verbreitete sensorische Eingaben wie visuelle Odometrie und GPS und fusioniert sie für die Kameraperspektivierung. Die durch diese Eingaben ausgedrückten geometrischen Restriktionen, die traditionell in Bundle Adjustment oder Pose-Graph-Optimierung verwendet wurden, werden als Verlustfunktionsterme im Training von MapNet formuliert und auch während der Inferenz genutzt. Neben der direkten Verbesserung der Lokalisationsgenauigkeit ermöglicht dies uns, MapNet (d.h. Karten) auf selbstüberwachte Weise mithilfe zusätzlicher unbeschrifteter Videosequenzen aus der Szene zu aktualisieren. Wir schlagen zudem eine neue Parametrisierung für die Kamerarotation vor, die besser für die Regression von Kameraposen auf Basis tiefer Lernmethoden geeignet ist. Experimentelle Ergebnisse sowohl am Indoor-Datensatz 7-Scenes als auch am Outdoor-Datensatz Oxford RobotCar zeigen einen signifikanten Leistungsanstieg im Vergleich zu früherer Arbeit. Die Projektwebseite von MapNet ist https://goo.gl/mRB3Au.