Lernen der Multi-View-Kamera-Relokalisierung mit Graph Neural Networks

Wir schlagen vor, einen Ansichtsgraphen zu konstruieren, um die Informationen der gesamten gegebenen Sequenz für die absolute Kamerapose-Schätzung auszubauen. Konkret nutzen wir GNNs (Graph Neural Networks), um den Graphen zu modellieren, wodurch auch nicht aufeinanderfolgende Frames miteinander Informationen austauschen können. Anstatt reguläre GNNs direkt einzusetzen, überarbeiten wir Knoten, Kanten und eingebettete Funktionen, um sie besser an die Relokalisierungsaufgabe anzupassen. Umgestaltete GNNs arbeiten gemeinsam mit CNNs zusammen, wobei die GNNs die Wissensweiterleitung und die CNNs die Merkmalsextraktion auf mehreren Ebenen iterativ für hochdimensionale Bildmerkmale aus mehreren Ansichten steuern. Zudem wird eine allgemeine, graphbasierte Verlustfunktion eingesetzt, die über die Beschränkungen zwischen aufeinanderfolgenden Ansichten hinausgeht, um das Netzwerk end-to-end zu trainieren. Umfangreiche Experimente an sowohl indoor- als auch outdoor-Datensätzen zeigen, dass unsere Methode bisherige Ansätze übertrifft, insbesondere in großskaligen und anspruchsvollen Szenarien.