CORAL : Représentation structurée colorée pour la reconnaissance de lieux bi-modale

La reconnaissance de lieu est indispensable pour un système de localisation sans dérive. En raison des variations environnementales, la reconnaissance de lieu basée sur une seule modalité présente des limites. Dans cet article, nous proposons une méthode de reconnaissance de lieu bi-modale, capable d’extraire un descripteur global combiné à partir de deux modalités : la vision et la LiDAR. Plus précisément, nous construisons d’abord une image d’élévation à partir des points 3D, servant de représentation structurelle. Ensuite, nous établissons les correspondances entre les points 3D et les pixels d’image, qui sont ultérieurement utilisées pour fusionner les caractéristiques visuelles par pixel dans les grilles de la carte d’élévation. Ainsi, nous fusionnons les caractéristiques structurelles et visuelles dans un cadre cohérent en vue de dessus (bird-eye view), produisant une représentation sémantique, nommée CORAL. Le réseau entier est désigné CORAL-VLAD. Les expérimentations sur le jeu de données Oxford RobotCar montrent que CORAL-VLAD surpasser les autres méthodes de pointe. Nous démontrons également que notre réseau peut être généralisé à d’autres scènes et configurations de capteurs sur des jeux de données inter-villes.