MinkLoc++ : Fusion de lidar et d'images monoculaires pour la reconnaissance des lieux

Nous présentons un descripteur multimodal discriminatif basé sur une paire de lectures de capteurs : un nuage de points provenant d'un LiDAR et une image provenant d'une caméra RGB. Notre descripteur, nommé MinkLoc++, peut être utilisé pour la reconnaissance des lieux, la rélocalisation et la fermeture de boucle dans les applications de robotique ou de véhicules autonomes. Nous utilisons une approche de fusion tardive, où chaque modalité est traitée séparément et fusionnée dans la partie finale du pipeline de traitement. La méthode proposée atteint des performances de pointe sur des benchmarks standardisés de reconnaissance des lieux. Nous identifions également le problème de modalité dominante lors de l'entraînement d'un descripteur multimodal. Ce problème se manifeste lorsque le réseau se concentre sur une modalité avec une plus grande suradaptation aux données d'entraînement. Cela fait baisser la perte pendant l'entraînement mais entraîne des performances sous-optimales sur l'ensemble d'évaluation. Dans ce travail, nous décrivons comment détecter et atténuer ce risque lorsqu'on utilise une approche d'apprentissage métrique profond pour entraîner un réseau neuronal multimodal. Notre code est disponible au public sur le site web du projet : https://github.com/jac99/MinkLocMultimodal.