HyperAIHyperAI
vor 17 Tagen

Text2Loc: 3D-Punktwolken-Ortung aus natürlicher Sprache

Yan Xia, Letian Shi, Zifeng Ding, João F. Henriques, Daniel Cremers
Text2Loc: 3D-Punktwolken-Ortung aus natürlicher Sprache
Abstract

Wir behandeln das Problem der 3D-Punktwolkenlokalisierung basierend auf wenigen natürlichen sprachlichen Beschreibungen und stellen ein neuartiges neuronales Netzwerk, Text2Loc, vor, das die semantischen Beziehungen zwischen Punkten und Text vollständig interpretiert. Text2Loc folgt einer grob-zu-fein-Lokalisierungspipeline: zunächst die globale Platzidentifikation mittels Text-Submap, gefolgt von einer feinen Lokalisierung. Bei der globalen Platzidentifikation werden die relationalen Dynamiken zwischen den einzelnen textuellen Hinweisen in einem hierarchischen Transformer mit Max-Pooling (HTM) erfasst, während mittels text-submap kontrastiver Lernansatz ein Gleichgewicht zwischen positiven und negativen Paaren gewahrt wird. Darüber hinaus präsentieren wir eine neuartige, match-freie Methode zur feinen Lokalisierung, die die Lokalisierungsvorhersagen weiter verfeinert und vollständig auf die komplizierte Text-Instanz-Abgleichung verzichtet. Diese Methode ist leichter, schneller und genauer als bisherige Ansätze. Ausführliche Experimente zeigen, dass Text2Loc die Lokalisierungsgenauigkeit auf dem KITTI360Pose-Datensatz gegenüber dem Stand der Technik um bis zu 2× verbessert. Die Projektseite ist öffentlich unter \url{https://yan-xia.github.io/projects/text2loc/} zugänglich.