HyperAIHyperAI

Command Palette

Search for a command to run...

Einfach, effektiv und allgemein: Ein neuer Backbone für die Geo-Lokalisierung von Bildern aus unterschiedlichen Perspektiven

Yingying Zhu Hongji Yang Yuxin Lu Qiang Huang

Zusammenfassung

In dieser Arbeit widmen wir uns einem wichtigen, jedoch bisher wenig erforschten Problem: der Entwicklung eines einfachen und dennoch effektiven Backbone-Netzwerks, das speziell für die cross-view geo-localization-Aufgabe geeignet ist. Bestehende Ansätze zur cross-view geo-localization zeichnen sich häufig durch drei Einschränkungen aus: 1) komplizierte Methodologien, 2) ressourcenintensive GPU-Berechnungen und 3) eine strenge Annahme, dass Luft- und Bodenbilder zentral oder ausrichtungsorientiert sind. Um diese drei Herausforderungen bei der cross-view-Bildübereinstimmung zu bewältigen, schlagen wir ein neues Backbone-Netzwerk vor, das wir Simple Attention-based Image Geo-localization network (SAIG) nennen. Das vorgeschlagene SAIG stellt langreichweitige Interaktionen zwischen Patchen sowie cross-view-Korrespondenzen effizient mittels Multi-Head-Self-Attention-Schichten dar. Die „narrow-deep“-Architektur unseres SAIG verbessert die Merkmalsreichtum ohne Leistungseinbußen, während der flache und effiziente convolutionale Stem die Lokalität bewahrt und somit den Verlust von Patch-Grenzinformationen vermeidet. Unser SAIG erreicht state-of-the-art-Ergebnisse bei der cross-view geo-localization, ist jedoch deutlich einfacher als frühere Ansätze. Zudem passt sich SAIG – mit nur 15,9 % der Modellparameter und der Hälfte der Ausgabedimension im Vergleich zum aktuellen Stand der Technik – gut auf mehreren cross-view-Datensätzen an, ohne auf speziell entworfene Merkmalsaggregationsmodule oder Merkmalsausrichtungsalgorithmen zurückgreifen zu müssen. Darüber hinaus erzielt unser SAIG wettbewerbsfähige Ergebnisse auf Bildretrieval-Benchmarks, was seine Generalisierbarkeit weiter unterstreicht. Als Backbone-Netzwerk ist SAIG sowohl leicht verständlich als auch rechenleicht, was seine Relevanz für praktische Anwendungen unterstreicht. Außerdem präsentieren wir einen einfachen Spatial-Mixed feature aggregation module (SMD), der räumliche Informationen in einen niedrigdimensionalen Raum mischt und projiziert, um Merkmalsbeschreibungen zu generieren. (Der Code ist verfügbar unter: https://github.com/yanghongji2007/SAIG)


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp