Localisation texte-vers-nuage-de-points sans instance avec prise en compte de la position relative

La localisation croisée texte-vers-nuage de points est une tâche émergente en vision-langage, essentielle pour la collaboration future entre robots et humains. Elle vise à localiser une position dans une scène de nuage de points à l’échelle urbaine à partir de quelques instructions en langage naturel. Dans cet article, nous abordons deux limitations clés des approches existantes : 1) leur dépendance aux instances de vérité terrain en entrée ; et 2) leur négligence des positions relatives entre les instances potentielles. Nous proposons un modèle suivant une architecture en deux étapes, comprenant une étape grossière pour la récupération de cellules textuelles et une étape fine pour l’estimation de position. Dans les deux étapes, nous introduisons un extracteur de requêtes d’instances, où les cellules sont encodées par un réseau U-Net à convolution 3D creuse afin de générer des caractéristiques multi-échelles du nuage de points, et un ensemble de requêtes itérativement attentive à ces caractéristiques pour représenter les instances. Lors de l’étape grossière, un module d’attention auto-attentive sensible aux positions relatives ligne-colonne (RowColRPA) est conçu pour capturer les relations spatiales entre les requêtes d’instances. Lors de l’étape fine, un module d’attention croisée sensible aux positions relatives multi-modales (RPCA) est développé pour fusionner les caractéristiques textuelles et les caractéristiques de nuage de points, tout en intégrant les relations spatiales, afin d’améliorer l’estimation fine de position. Les résultats expérimentaux sur le jeu de données KITTI360Pose montrent que notre modèle atteint des performances compétitives par rapport aux modèles de pointe, sans nécessiter d’instances de vérité terrain en entrée.