HyperAIHyperAI
vor 17 Tagen

Pyramid Point Cloud Transformer für die großskalige Platzerkennung

{Jian Yang, Jin Xie, Mingmei Cheng, Hang Yang, Le Hui}
Pyramid Point Cloud Transformer für die großskalige Platzerkennung
Abstract

Kürzlich haben punktwolkenbasierte Deskriptoren, die auf tiefen Lernverfahren basieren, beeindruckende Ergebnisse im Bereich der Ortserkennung erzielt. Dennoch bleibt die effiziente Extraktion diskriminativer lokaler Merkmale aus spärlichen Punktwolken zur Bildung eines globalen Deskriptors weiterhin eine herausfordernde Aufgabe. In diesem Beitrag stellen wir ein Pyramid Point Cloud Transformer Network (PPT-Net) vor, um diskriminative globale Deskriptoren aus Punktwolken für eine effiziente Abfrage zu lernen. Konkret entwickeln wir zunächst ein Pyramid Point Transformer-Modul, das adaptiv die räumlichen Beziehungen verschiedener lokaler k-NN-Graphen von Punktwolken erlernt, wobei wir eine gruppierte Selbst-Attention-Methode einführen, um diskriminative lokale Merkmale der Punktwolken zu extrahieren. Darüber hinaus verstärkt die gruppierte Selbst-Attention nicht nur langfristige Abhängigkeiten innerhalb der Punktwolken, sondern reduziert auch den Rechenaufwand. Um diskriminative globale Deskriptoren zu erzeugen, konstruieren wir ein Pyramid-VLAD-Modul, das mehrskalige Merkmalskarten der Punktwolken zu globalen Deskriptoren aggregiert. Durch die Anwendung von VLAD-Pooling auf mehrskalige Merkmalskarten nutzen wir eine Kontext-Gating-Mechanismus, um die mehrskaligen globalen Kontextinformationen adaptiv in den finalen globalen Deskriptor zu gewichten. Experimentelle Ergebnisse auf dem Oxford-Datensatz sowie auf drei internen Datensätzen zeigen, dass unsere Methode die derzeit beste Leistung im Bereich der punktwolkenbasierten Ortserkennung erzielt. Der Quellcode ist unter https://github.com/fpthink/PPT-Net verfügbar.