Lernen der Multi-View-Kamera-Relokalisierung mit Graph Neural Networks
{ Junqiu Wang Shaojun Cai Xin Wu Fei Xue}

Abstract
Wir schlagen vor, einen Ansichtsgraphen zu konstruieren, um die Informationen der gesamten gegebenen Sequenz für die absolute Kamerapose-Schätzung auszubauen. Konkret nutzen wir GNNs (Graph Neural Networks), um den Graphen zu modellieren, wodurch auch nicht aufeinanderfolgende Frames miteinander Informationen austauschen können. Anstatt reguläre GNNs direkt einzusetzen, überarbeiten wir Knoten, Kanten und eingebettete Funktionen, um sie besser an die Relokalisierungsaufgabe anzupassen. Umgestaltete GNNs arbeiten gemeinsam mit CNNs zusammen, wobei die GNNs die Wissensweiterleitung und die CNNs die Merkmalsextraktion auf mehreren Ebenen iterativ für hochdimensionale Bildmerkmale aus mehreren Ansichten steuern. Zudem wird eine allgemeine, graphbasierte Verlustfunktion eingesetzt, die über die Beschränkungen zwischen aufeinanderfolgenden Ansichten hinausgeht, um das Netzwerk end-to-end zu trainieren. Umfangreiche Experimente an sowohl indoor- als auch outdoor-Datensätzen zeigen, dass unsere Methode bisherige Ansätze übertrifft, insbesondere in großskaligen und anspruchsvollen Szenarien.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| camera-localization-on-oxford-robotcar-full | GNNMapNet | Mean Translation Error: 17.35 |
| visual-localization-on-oxford-robotcar-full | GNNMapNet | Mean Translation Error: 17.35 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.