il y a 4 mois

Apprentissage de représentations conjointes et détection de points clés pour la géolocalisation multi-vue

Voir les détails de l'article Voir le code

{Nicu Sebe Yi Yang Shaozi Li Zhiming Luo Zhun Zhong Zhedong Zheng Jinliang Lin}

Résumé

Dans cet article, nous étudions le problème de la géolocalisation croisée entre vues (cross-view geo-localization) afin de correspondre des images provenant de points de vue différents. La motivation principale de cette tâche réside dans l’apprentissage d’une représentation visuelle discriminative et invariante aux points de vue. Inspirés par le système visuel humain pour extraire des motifs locaux, nous proposons un nouveau cadre appelé RK-Net, capable d’apprendre conjointement une représentation discriminative et de détecter des points clés saillants au sein d’un seul réseau. Plus précisément, nous introduisons un module d’attention par soustraction unitaire (Unit Subtraction Attention Module, USAM), qui permet de découvrir automatiquement des points clés représentatifs à partir des cartes de caractéristiques et de concentrer l’attention sur les régions saillantes. Ce module USAM comporte très peu de paramètres à apprendre, tout en offrant une amélioration significative des performances, et peut être facilement intégré à divers architectures de réseaux. Nous démontrons, à travers des expériences étendues, que : (1) en intégrant USAM, RK-Net permet une apprentissage conjoint end-to-end sans nécessiter d’étiquetages supplémentaires. L’apprentissage de représentation et la détection de points clés sont deux tâches fortement corrélées : l’apprentissage de représentation améliore la détection de points clés, tandis que cette dernière enrichit la capacité du modèle à faire face aux grandes variations d’apparence induites par les changements de point de vue. (2) USAM est facile à implémenter et peut être combiné avec des méthodes existantes, permettant ainsi d’améliorer davantage les performances actuelles de l’état de l’art. Nous obtenons des résultats compétitifs en précision de géolocalisation sur trois jeux de données exigeants : University-1652, CVUSA et CVACT. Le code source est disponible à l’adresse suivante : https://github.com/AggMan96/RK-Net.

Benchmarks

Benchmark	Méthodologie	Métriques
drone-navigation-on-university-1652-1	SAFA + USAM	AP: 71.77 Recall@1: 83.23
drone-navigation-on-university-1652-1	RK-Net	AP: 65.76 Recall@1: 80.17
drone-navigation-on-university-1652-1	LPN + USAM	AP: 75.96 Recall@1: 86.59
drone-view-target-localization-on-university-1	RK-Net	AP: 70.23 Recall@1: 66.13
drone-view-target-localization-on-university-1	LPN + USAM	AP: 80.55 Recall@1: 77.60
drone-view-target-localization-on-university-1	SAFA + USAM	AP: 75.79 Recall@1: 72.19
image-based-localization-on-cvact	RK-Net	Recall@1: 40.53 Recall@1 (%): 89.12
image-based-localization-on-cvact	Instance Loss	Recall@1: 35.24 Recall@1 (%): 87.34
image-based-localization-on-cvusa-1	RK-Net	Recall@1: 52.50 Recall@top1%: 96.52

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette