Ligne comme une phrase visuelle : descripteur de ligne contextuel pour la localisation visuelle

En complément des points caractéristiques utilisés pour le traitement d’images, les caractéristiques linéaires apportent des contraintes supplémentaires pour résoudre des problèmes géométriques visuels en robotique et en vision par ordinateur (CV). Bien que les descripteurs de lignes basés sur les réseaux de neurones convolutifs (CNN) récents se révèlent prometteurs face aux changements de point de vue ou aux environnements dynamiques, nous affirmons que l’architecture CNN présente des inconvénients intrinsèques dans l’abstraction de longueurs de lignes variables vers des descripteurs de dimension fixe. Dans cet article, nous introduisons efficacement les Line-Transformers, capables de traiter des lignes de longueur variable. Inspirés par les tâches de traitement du langage naturel (NLP), où les phrases peuvent être correctement comprises et abstraites par les réseaux neuronaux, nous considérons un segment de ligne comme une phrase composée de points (mots). En accordant une attention dynamique aux points bien caractérisés le long d’une ligne, notre descripteur s’impose particulièrement bien dans le cas de longueurs de lignes variables. Nous proposons également des réseaux de signatures de lignes qui partagent les attributs géométriques d’une ligne avec ses voisins. En tant que descripteurs groupés, ces réseaux améliorent les descripteurs de lignes en captant les géométries relatives des lignes. Enfin, nous intégrons le descripteur de ligne proposé et son algorithme de correspondance dans un cadre de localisation par points et lignes (PL-Loc). Nous démontrons que la localisation visuelle basée uniquement sur des points caractéristiques peut être améliorée grâce à nos caractéristiques linéaires. Nous validons la méthodologie proposée pour l’estimation d’homographie et la localisation visuelle.