Text2Loc : Localisation dans un nuage de points 3D à partir d’un langage naturel

Nous abordons le problème de la localisation dans un nuage de points 3D à partir de quelques descriptions linguistiques naturelles, et introduisons un nouveau réseau neuronal, Text2Loc, qui interprète pleinement les relations sémantiques entre les points et le texte. Text2Loc suit une approche de localisation de grossière à fine : reconnaissance globale du lieu par sous-cartes à partir du texte, suivie d'une localisation fine. Dans la reconnaissance globale du lieu, les dynamiques relationnelles entre chaque indice textuel sont capturées à l’aide d’un transformateur hiérarchique avec max-pooling (HTM), tandis qu’un équilibre entre paires positives et négatives est maintenu grâce à une apprentissage contrastif texte-sous-carte. En outre, nous proposons une nouvelle méthode de localisation fine sans correspondance (matching-free), permettant une affinement supplémentaire des prédictions de localisation. Cette approche élimine complètement le besoin de correspondances complexes entre textes et instances, tout en étant plus légère, plus rapide et plus précise que les méthodes antérieures. Des expériences étendues montrent que Text2Loc améliore la précision de localisation jusqu’à 2 fois par rapport à l’état de l’art sur le jeu de données KITTI360Pose. La page de projet est disponible publiquement à l’adresse suivante : \url{https://yan-xia.github.io/projects/text2loc/}.