AtLoc : Localisation de caméra guidée par l'attention

L’apprentissage profond a obtenu des résultats remarquables en localisation de caméra, mais les techniques actuelles basées sur une seule image souffrent généralement d’une faible robustesse, entraînant de nombreux outliers importants. À ce jour, cette limitation a été partiellement atténuée par des approches séquentielles (à plusieurs images) ou basées sur des contraintes géométriques, qui permettent d’apprendre à rejeter les objets dynamiques et les variations d’éclairage, aboutissant à une meilleure performance. Dans ce travail, nous démontrons que l’attention peut être exploitée pour forcer le réseau à se concentrer sur des objets et des caractéristiques plus robustes du point de vue géométrique, permettant ainsi d’atteindre des performances de pointe sur des benchmarks courants, même avec une seule image en entrée. Des preuves expérimentales étendues sont fournies à l’aide de jeux de données publics en intérieur et en extérieur. Grâce à la visualisation des cartes de salience, nous illustrons comment le réseau apprend à rejeter les objets dynamiques, aboutissant à une estimation globale de la pose de la caméra particulièrement performante. Le code source est disponible à l’adresse suivante : https://github.com/BingCS/AtLoc.