CoordiNet : régresseur de pose sensible à l'incertitude pour une localisation fiable des véhicules

Dans cet article, nous étudions la rélocalisation de caméra basée sur l’image à l’aide de réseaux de neurones pour des applications en robotique et véhicules autonomes. Notre approche repose sur un algorithme fondé sur un réseau de neurones convolutif (CNN) qui prédit directement la pose de la caméra (translation 3D et rotation 3D) à partir d’une seule image, tout en fournissant une estimation d’incertitude associée à cette pose. La pose et son incertitude sont apprises conjointement via une seule fonction de perte, puis fusionnées à l’étape de test à l’aide d’un filtre de Kalman étendu (EKF). En outre, nous proposons une nouvelle architecture entièrement convolutive, nommée CoordiNet, conçue pour intégrer certaines informations géométriques de la scène. Notre cadre méthodologique surpasser les méthodes comparables sur le plus grand ensemble de données disponible, le jeu de données Oxford RobotCar, en atteignant une erreur moyenne de 8 mètres, contre 19 mètres pour la meilleure méthode précédente. Nous avons également évalué les performances de notre méthode sur de grandes scènes, dans un cadre en temps réel (18 fps) pour la localisation de véhicules. Dans ce contexte, les méthodes basées sur la structure nécessitent une base de données volumineuse, et nous démontrons que notre approche constitue une alternative fiable, obtenant une erreur médiane de 29 cm sur une boucle de 1,9 km dans un quartier urbain très fréquenté.