Dropout guidé par une priorité pour une localisation visuelle robuste dans des environnements dynamiques

La localisation de caméra à partir d’images monochromatiques constitue un problème ancien, mais sa robustesse dans les environnements dynamiques n’est pas encore suffisamment traitée. Contrairement aux approches géométriques classiques, les méthodes modernes basées sur les réseaux de neurones convolutifs (CNN), telles que PoseNet, ont démontré une fiabilité face aux variations d’éclairage ou de point de vue. Toutefois, elles présentent encore les limitations suivantes. Premièrement, les objets en mouvement au premier plan ne sont pas explicitement pris en compte, ce qui entraîne une performance médiocre et une instabilité dans les environnements dynamiques. Deuxièmement, chaque image produit une estimation ponctuelle sans quantification de l’incertitude. Dans cet article, nous proposons un cadre général pouvant être appliqué aux régresseurs de pose basés sur les CNN existants afin d’améliorer leur robustesse dans les environnements dynamiques. L’idée centrale repose sur un module de dropout guidé par un prior combiné à un module d’attention auto-attention, qui permet aux CNN d’ignorer les objets en mouvement au premier plan durant l’entraînement comme pendant l’inférence. En outre, ce module de dropout permet au régresseur de pose de produire plusieurs hypothèses, permettant ainsi de quantifier l’incertitude des estimations de pose et de l’exploiter dans une optimisation ultérieure du graphe de pose consciente de l’incertitude, renforçant ainsi la robustesse. Nous atteignons une précision moyenne de 9,98 m / 3,63° sur le jeu de données RobotCar, surpassant ainsi la méthode de l’état de l’art de 62,97 % / 47,08 %. Le code source de notre implémentation est disponible à l’adresse suivante : https://github.com/zju3dv/RVL-dynamic.