vor 4 Monaten

Gemeinsame Darstellungslernung und Eckpunktdetektion für die cross-view Geo-Lokalisierung

Details der Forschungsarbeit anzeigen Code anzeigen

{Nicu Sebe Yi Yang Shaozi Li Zhiming Luo Zhun Zhong Zhedong Zheng Jinliang Lin}

Abstract

In diesem Artikel untersuchen wir das Problem der cross-view Geo-Lokalisierung, um Bilder aus verschiedenen Blickwinkeln zu matchen. Die zentrale Motivation dieser Aufgabe besteht darin, eine differenzierende, ansichtsunabhängige visuelle Repräsentation zu lernen. Inspiriert durch das menschliche visuelle System zur Erkennung lokaler Muster, schlagen wir einen neuen Ansatz namens RK-Net vor, der die differenzierende Repräsentation und die Detektion auffälliger Keypoints in einem einzigen Netzwerk gemeinsam lernt. Konkret führen wir einen Unit Subtraction Attention Module (USAM) ein, der automatisch repräsentative Keypoints aus Feature-Maps identifiziert und sich auf auffällige Regionen konzentriert. Der USAM verfügt über sehr wenige Lernparameter, erzielt jedoch eine signifikante Leistungssteigerung und kann problemlos in verschiedene Netzwerke integriert werden. Durch umfangreiche Experimente zeigen wir, dass (1) die Integration des USAM es ermöglicht, eine end-to-end gemeinsame Lernung durchzuführen, ohne zusätzliche Annotationen zu erfordern. Repräsentationslernprozess und Keypoint-Detektion sind zwei eng verwandte Aufgaben: Während das Repräsentationslernen die Keypoint-Detektion unterstützt, bereichert die Keypoint-Detektion die Modellkapazität gegenüber starken Erscheinungsänderungen, die durch Blickwinkelunterschiede verursacht werden. (2) Der USAM ist einfach zu implementieren und lässt sich nahtlos mit bestehenden Methoden kombinieren, wodurch die state-of-the-art-Leistung weiter verbessert wird. Wir erzielen wettbewerbsfähige Genauigkeiten bei der Geo-Lokalisierung auf drei anspruchsvollen Datensätzen, nämlich University-1652, CVUSA und CVACT. Unser Quellcode ist unter https://github.com/AggMan96/RK-Net verfügbar.

Benchmarks

Benchmark	Methodik	Metriken
drone-navigation-on-university-1652-1	SAFA + USAM	AP: 71.77 Recall@1: 83.23
drone-navigation-on-university-1652-1	RK-Net	AP: 65.76 Recall@1: 80.17
drone-navigation-on-university-1652-1	LPN + USAM	AP: 75.96 Recall@1: 86.59
drone-view-target-localization-on-university-1	RK-Net	AP: 70.23 Recall@1: 66.13
drone-view-target-localization-on-university-1	LPN + USAM	AP: 80.55 Recall@1: 77.60
drone-view-target-localization-on-university-1	SAFA + USAM	AP: 75.79 Recall@1: 72.19
image-based-localization-on-cvact	RK-Net	Recall@1: 40.53 Recall@1 (%): 89.12
image-based-localization-on-cvact	Instance Loss	Recall@1: 35.24 Recall@1 (%): 87.34
image-based-localization-on-cvusa-1	RK-Net	Recall@1: 52.50 Recall@top1%: 96.52

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette