Instanzfreie Text-zu-Punktwolken-Lokalisierung mit Bewusstsein für relative Position

Text-to-Point-Cloud-Querstellung ist eine neuartige visuell-sprachliche Aufgabe, die für die zukünftige Zusammenarbeit zwischen Robotern und Menschen von entscheidender Bedeutung ist. Sie zielt darauf ab, eine Position innerhalb einer städtischen Skalen-Punktwolke anhand nur weniger natürlicher Sprachanweisungen zu lokalisieren. In diesem Paper behandeln wir zwei zentrale Einschränkungen bestehender Ansätze: 1) ihre Abhängigkeit von Ground-Truth-Instanzen als Eingabe; und 2) die Vernachlässigung der relativen Positionen zwischen potenziellen Instanzen. Wir stellen ein modulares Modell mit einem zweistufigen Pipeline-Ansatz vor, der zunächst eine grobe Stufe zur Text-Zelle-Abfrage und anschließend eine feine Stufe zur Positionsabschätzung umfasst. In beiden Stufen führen wir einen Instanz-Abfrag-Extraktor ein, bei dem die Zellen mittels eines 3D-sparse-Convolution-U-Netzwerks kodiert werden, um mehrskalige Punktwolkenmerkmale zu erzeugen. Eine Reihe von Abfragen iterativ auf diese Merkmale zugreifen, um Instanzen darzustellen. In der groben Stufe wird ein Row-Column-Relative-Position-aware Self-Attention-Modul (RowColRPA) entwickelt, um räumliche Beziehungen zwischen den Instanz-Abfragen zu erfassen. In der feinen Stufe wird ein Multi-Modales Relative-Position-aware Cross-Attention-Modul (RPCA) eingeführt, das Text- und Punktwolkenmerkmale sowie räumliche Beziehungen zur Verbesserung der präzisen Positionsabschätzung fusioniert. Experimentelle Ergebnisse auf dem KITTI360Pose-Datensatz zeigen, dass unser Modell eine konkurrenzfähige Leistung erzielt, die mit den besten aktuellen Ansätzen vergleichbar ist, ohne Ground-Truth-Instanzen als Eingabe zu benötigen.