DH3D: Tief hierarchische 3D-Deskriptoren für robuste großmaßstäbliche 6DoF-Relokalisierung

Für die Relokalisierung in großen Punktwolken schlagen wir den ersten Ansatz vor, der globale Ortsidentifikation und lokale 6DoF-Pose-Verfeinerung vereint. Hierzu entwickeln wir ein Siameses Netzwerk, das die 3D-Lokalmerkmalsdetektion und -beschreibung direkt aus rohen 3D-Punkten gemeinsam lernt. Es integriert FlexConv und Squeeze-and-Excitation (SE), um sicherzustellen, dass der gelernte lokale Deskriptor mehrstufige geometrische Informationen und kanalweise Beziehungen erfasst. Für die Detektion von 3D-Schlüsselpunkten prognostizieren wir die Diskriminierbarkeit der lokalen Deskriptoren auf nicht überwachte Weise. Wir generieren den globalen Deskriptor durch direkte Aggregation der gelernten lokalen Deskriptoren mit einem effektiven Aufmerksamkeitsmechanismus. Auf diese Weise werden lokale und globale 3D-Deskriptoren in einem einzigen Vorwärtsdurchgang inferiert. Experimente auf verschiedenen Benchmarks zeigen, dass unsere Methode wettbewerbsfähige Ergebnisse sowohl für die globale Punktwolkenabfrage als auch für die lokale Punktwolkenregistrierung im Vergleich zu den aktuellen besten Ansätzen erzielt. Um die Allgemeingültigkeit und Robustheit unserer 3D-Schlüsselpunkte zu validieren, demonstrieren wir, dass unsere Methode auch ohne Feinabstimmung bei der Registrierung von durch ein visuelles SLAM-System generierten Punktwolken gute Leistungen zeigt. Der Quellcode und verwandtes Material sind unter https://vision.in.tum.de/research/vslam/dh3d verfügbar.