HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Apprentissage de représentations conjointes et détection de points clés pour la géolocalisation multi-vue

{Nicu Sebe Yi Yang Shaozi Li Zhiming Luo Zhun Zhong Zhedong Zheng Jinliang Lin}

Résumé

Dans cet article, nous étudions le problème de la géolocalisation croisée entre vues (cross-view geo-localization) afin de correspondre des images provenant de points de vue différents. La motivation principale de cette tâche réside dans l’apprentissage d’une représentation visuelle discriminative et invariante aux points de vue. Inspirés par le système visuel humain pour extraire des motifs locaux, nous proposons un nouveau cadre appelé RK-Net, capable d’apprendre conjointement une représentation discriminative et de détecter des points clés saillants au sein d’un seul réseau. Plus précisément, nous introduisons un module d’attention par soustraction unitaire (Unit Subtraction Attention Module, USAM), qui permet de découvrir automatiquement des points clés représentatifs à partir des cartes de caractéristiques et de concentrer l’attention sur les régions saillantes. Ce module USAM comporte très peu de paramètres à apprendre, tout en offrant une amélioration significative des performances, et peut être facilement intégré à divers architectures de réseaux. Nous démontrons, à travers des expériences étendues, que : (1) en intégrant USAM, RK-Net permet une apprentissage conjoint end-to-end sans nécessiter d’étiquetages supplémentaires. L’apprentissage de représentation et la détection de points clés sont deux tâches fortement corrélées : l’apprentissage de représentation améliore la détection de points clés, tandis que cette dernière enrichit la capacité du modèle à faire face aux grandes variations d’apparence induites par les changements de point de vue. (2) USAM est facile à implémenter et peut être combiné avec des méthodes existantes, permettant ainsi d’améliorer davantage les performances actuelles de l’état de l’art. Nous obtenons des résultats compétitifs en précision de géolocalisation sur trois jeux de données exigeants : University-1652, CVUSA et CVACT. Le code source est disponible à l’adresse suivante : https://github.com/AggMan96/RK-Net.

Benchmarks

BenchmarkMéthodologieMétriques
drone-navigation-on-university-1652-1SAFA + USAM
AP: 71.77
Recall@1: 83.23
drone-navigation-on-university-1652-1RK-Net
AP: 65.76
Recall@1: 80.17
drone-navigation-on-university-1652-1LPN + USAM
AP: 75.96
Recall@1: 86.59
drone-view-target-localization-on-university-1RK-Net
AP: 70.23
Recall@1: 66.13
drone-view-target-localization-on-university-1LPN + USAM
AP: 80.55
Recall@1: 77.60
drone-view-target-localization-on-university-1SAFA + USAM
AP: 75.79
Recall@1: 72.19
image-based-localization-on-cvactRK-Net
Recall@1: 40.53
Recall@1 (%): 89.12
image-based-localization-on-cvactInstance Loss
Recall@1: 35.24
Recall@1 (%): 87.34
image-based-localization-on-cvusa-1RK-Net
Recall@1: 52.50
Recall@top1%: 96.52

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de représentations conjointes et détection de points clés pour la géolocalisation multi-vue | Articles de recherche | HyperAI