Text2Pos : Localisation croisée multimodale Texte-Point-Cloud

La communication basée sur le langage naturel avec les appareils mobiles et les appareils domestiques gagne de plus en plus en popularité et pourrait devenir une méthode naturelle pour interagir avec des robots mobiles à l’avenir. Dans cette optique, nous étudions la localisation croisée texte-vers-nuage de points, une approche qui permettrait par exemple de préciser un point de ramassage de véhicule ou de livraison de marchandises. Plus précisément, nous proposons Text2Pos, un module de localisation intermodale qui apprend à aligner les descriptions textuelles avec les indices de localisation selon une approche de grossier à fin. Étant donné un nuage de points décrivant un environnement, Text2Pos identifie une position spécifiée par une description textuelle naturelle des environs immédiats. Pour entraîner Text2Pos et évaluer ses performances, nous avons construit KITTI360Pose, le premier jeu de données dédié à cette tâche, basé sur le récent jeu de données KITTI360. Nos expériences montrent que nous pouvons localiser 65 % des requêtes textuelles à moins de 15 mètres de la position cible parmi les 10 positions les plus proches récupérées. Ce résultat constitue un point de départ que nous espérons stimuler des développements futurs vers la navigation guidée par le langage.