HyperAIHyperAI
vor 11 Tagen

Einfach, effektiv und allgemein: Ein neuer Backbone für die Geo-Lokalisierung von Bildern aus unterschiedlichen Perspektiven

Yingying Zhu, Hongji Yang, Yuxin Lu, Qiang Huang
Einfach, effektiv und allgemein: Ein neuer Backbone für die Geo-Lokalisierung von Bildern aus unterschiedlichen Perspektiven
Abstract

In dieser Arbeit widmen wir uns einem wichtigen, jedoch bisher wenig erforschten Problem: der Entwicklung eines einfachen und dennoch effektiven Backbone-Netzwerks, das speziell für die cross-view geo-localization-Aufgabe geeignet ist. Bestehende Ansätze zur cross-view geo-localization zeichnen sich häufig durch drei Einschränkungen aus: 1) komplizierte Methodologien, 2) ressourcenintensive GPU-Berechnungen und 3) eine strenge Annahme, dass Luft- und Bodenbilder zentral oder ausrichtungsorientiert sind. Um diese drei Herausforderungen bei der cross-view-Bildübereinstimmung zu bewältigen, schlagen wir ein neues Backbone-Netzwerk vor, das wir Simple Attention-based Image Geo-localization network (SAIG) nennen. Das vorgeschlagene SAIG stellt langreichweitige Interaktionen zwischen Patchen sowie cross-view-Korrespondenzen effizient mittels Multi-Head-Self-Attention-Schichten dar. Die „narrow-deep“-Architektur unseres SAIG verbessert die Merkmalsreichtum ohne Leistungseinbußen, während der flache und effiziente convolutionale Stem die Lokalität bewahrt und somit den Verlust von Patch-Grenzinformationen vermeidet. Unser SAIG erreicht state-of-the-art-Ergebnisse bei der cross-view geo-localization, ist jedoch deutlich einfacher als frühere Ansätze. Zudem passt sich SAIG – mit nur 15,9 % der Modellparameter und der Hälfte der Ausgabedimension im Vergleich zum aktuellen Stand der Technik – gut auf mehreren cross-view-Datensätzen an, ohne auf speziell entworfene Merkmalsaggregationsmodule oder Merkmalsausrichtungsalgorithmen zurückgreifen zu müssen. Darüber hinaus erzielt unser SAIG wettbewerbsfähige Ergebnisse auf Bildretrieval-Benchmarks, was seine Generalisierbarkeit weiter unterstreicht. Als Backbone-Netzwerk ist SAIG sowohl leicht verständlich als auch rechenleicht, was seine Relevanz für praktische Anwendungen unterstreicht. Außerdem präsentieren wir einen einfachen Spatial-Mixed feature aggregation module (SMD), der räumliche Informationen in einen niedrigdimensionalen Raum mischt und projiziert, um Merkmalsbeschreibungen zu generieren. (Der Code ist verfügbar unter: https://github.com/yanghongji2007/SAIG)

Einfach, effektiv und allgemein: Ein neuer Backbone für die Geo-Lokalisierung von Bildern aus unterschiedlichen Perspektiven | Neueste Forschungsarbeiten | HyperAI