HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Gemeinsame Darstellungslernung und Eckpunktdetektion für die cross-view Geo-Lokalisierung

{Nicu Sebe Yi Yang Shaozi Li Zhiming Luo Zhun Zhong Zhedong Zheng Jinliang Lin}

Abstract

In diesem Artikel untersuchen wir das Problem der cross-view Geo-Lokalisierung, um Bilder aus verschiedenen Blickwinkeln zu matchen. Die zentrale Motivation dieser Aufgabe besteht darin, eine differenzierende, ansichtsunabhängige visuelle Repräsentation zu lernen. Inspiriert durch das menschliche visuelle System zur Erkennung lokaler Muster, schlagen wir einen neuen Ansatz namens RK-Net vor, der die differenzierende Repräsentation und die Detektion auffälliger Keypoints in einem einzigen Netzwerk gemeinsam lernt. Konkret führen wir einen Unit Subtraction Attention Module (USAM) ein, der automatisch repräsentative Keypoints aus Feature-Maps identifiziert und sich auf auffällige Regionen konzentriert. Der USAM verfügt über sehr wenige Lernparameter, erzielt jedoch eine signifikante Leistungssteigerung und kann problemlos in verschiedene Netzwerke integriert werden. Durch umfangreiche Experimente zeigen wir, dass (1) die Integration des USAM es ermöglicht, eine end-to-end gemeinsame Lernung durchzuführen, ohne zusätzliche Annotationen zu erfordern. Repräsentationslernprozess und Keypoint-Detektion sind zwei eng verwandte Aufgaben: Während das Repräsentationslernen die Keypoint-Detektion unterstützt, bereichert die Keypoint-Detektion die Modellkapazität gegenüber starken Erscheinungsänderungen, die durch Blickwinkelunterschiede verursacht werden. (2) Der USAM ist einfach zu implementieren und lässt sich nahtlos mit bestehenden Methoden kombinieren, wodurch die state-of-the-art-Leistung weiter verbessert wird. Wir erzielen wettbewerbsfähige Genauigkeiten bei der Geo-Lokalisierung auf drei anspruchsvollen Datensätzen, nämlich University-1652, CVUSA und CVACT. Unser Quellcode ist unter https://github.com/AggMan96/RK-Net verfügbar.

Benchmarks

BenchmarkMethodikMetriken
drone-navigation-on-university-1652-1SAFA + USAM
AP: 71.77
Recall@1: 83.23
drone-navigation-on-university-1652-1RK-Net
AP: 65.76
Recall@1: 80.17
drone-navigation-on-university-1652-1LPN + USAM
AP: 75.96
Recall@1: 86.59
drone-view-target-localization-on-university-1RK-Net
AP: 70.23
Recall@1: 66.13
drone-view-target-localization-on-university-1LPN + USAM
AP: 80.55
Recall@1: 77.60
drone-view-target-localization-on-university-1SAFA + USAM
AP: 75.79
Recall@1: 72.19
image-based-localization-on-cvactRK-Net
Recall@1: 40.53
Recall@1 (%): 89.12
image-based-localization-on-cvactInstance Loss
Recall@1: 35.24
Recall@1 (%): 87.34
image-based-localization-on-cvusa-1RK-Net
Recall@1: 52.50
Recall@top1%: 96.52

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gemeinsame Darstellungslernung und Eckpunktdetektion für die cross-view Geo-Lokalisierung | Forschungsarbeiten | HyperAI