Apprentissage de représentations conjointes et détection de points clés pour la géolocalisation multi-vue
Dans cet article, nous étudions le problème de la géolocalisation croisée entre vues (cross-view geo-localization) afin de correspondre des images provenant de points de vue différents. La motivation principale de cette tâche réside dans l’apprentissage d’une représentation visuelle discriminative et invariante aux points de vue. Inspirés par le système visuel humain pour extraire des motifs locaux, nous proposons un nouveau cadre appelé RK-Net, capable d’apprendre conjointement une représentation discriminative et de détecter des points clés saillants au sein d’un seul réseau. Plus précisément, nous introduisons un module d’attention par soustraction unitaire (Unit Subtraction Attention Module, USAM), qui permet de découvrir automatiquement des points clés représentatifs à partir des cartes de caractéristiques et de concentrer l’attention sur les régions saillantes. Ce module USAM comporte très peu de paramètres à apprendre, tout en offrant une amélioration significative des performances, et peut être facilement intégré à divers architectures de réseaux. Nous démontrons, à travers des expériences étendues, que : (1) en intégrant USAM, RK-Net permet une apprentissage conjoint end-to-end sans nécessiter d’étiquetages supplémentaires. L’apprentissage de représentation et la détection de points clés sont deux tâches fortement corrélées : l’apprentissage de représentation améliore la détection de points clés, tandis que cette dernière enrichit la capacité du modèle à faire face aux grandes variations d’apparence induites par les changements de point de vue. (2) USAM est facile à implémenter et peut être combiné avec des méthodes existantes, permettant ainsi d’améliorer davantage les performances actuelles de l’état de l’art. Nous obtenons des résultats compétitifs en précision de géolocalisation sur trois jeux de données exigeants : University-1652, CVUSA et CVACT. Le code source est disponible à l’adresse suivante : https://github.com/AggMan96/RK-Net.