Text2Pos: Text-zu-Punktewolke Kreuzmodale Lokalisierung

Die natürliche Sprache-basierte Kommunikation mit mobilen Geräten und Haushaltsgeräten gewinnt zunehmend an Bedeutung und hat das Potenzial, in Zukunft zur natürlichen Interaktion mit mobilen Robotern zu werden. Um dieses Ziel zu erreichen, untersuchen wir die cross-modal Text-zu-Punktwolken-Lokalisierung, die es ermöglicht, beispielsweise einen Fahrzeugabholort oder eine Lieferstelle über eine natürliche Sprachbeschreibung anzugeben. Insbesondere stellen wir Text2Pos vor, einen cross-modal Lokalisierungsmodul, der lernt, sprachliche Beschreibungen mit Lokalisierungshinweisen auf einer groben bis feinen Ebene zu verknüpfen. Gegeben eine Punktwolke der Umgebung lokalisiert Text2Pos eine Position, die über eine natürliche Sprachbeschreibung der unmittelbaren Umgebung spezifiziert ist. Um Text2Pos zu trainieren und seine Leistung zu evaluieren, erstellen wir KITTI360Pose, den ersten Datensatz für diese Aufgabe basierend auf dem kürzlich vorgestellten KITTI360-Datensatz. Unsere Experimente zeigen, dass wir 65 % der sprachlichen Anfragen innerhalb einer Distanz von 15 m zu den tatsächlichen Abfrageorten innerhalb der zehn besten zurückgegebenen Lokalisierungen lokalisieren können. Dies stellt einen ersten Ansatz dar, den wir hoffen, wird zukünftige Entwicklungen hin zu sprachbasierter Navigation anregen.