Gemeinsame Darstellungslernung und Eckpunktdetektion für die cross-view Geo-Lokalisierung
In diesem Artikel untersuchen wir das Problem der cross-view Geo-Lokalisierung, um Bilder aus verschiedenen Blickwinkeln zu matchen. Die zentrale Motivation dieser Aufgabe besteht darin, eine differenzierende, ansichtsunabhängige visuelle Repräsentation zu lernen. Inspiriert durch das menschliche visuelle System zur Erkennung lokaler Muster, schlagen wir einen neuen Ansatz namens RK-Net vor, der die differenzierende Repräsentation und die Detektion auffälliger Keypoints in einem einzigen Netzwerk gemeinsam lernt. Konkret führen wir einen Unit Subtraction Attention Module (USAM) ein, der automatisch repräsentative Keypoints aus Feature-Maps identifiziert und sich auf auffällige Regionen konzentriert. Der USAM verfügt über sehr wenige Lernparameter, erzielt jedoch eine signifikante Leistungssteigerung und kann problemlos in verschiedene Netzwerke integriert werden. Durch umfangreiche Experimente zeigen wir, dass (1) die Integration des USAM es ermöglicht, eine end-to-end gemeinsame Lernung durchzuführen, ohne zusätzliche Annotationen zu erfordern. Repräsentationslernprozess und Keypoint-Detektion sind zwei eng verwandte Aufgaben: Während das Repräsentationslernen die Keypoint-Detektion unterstützt, bereichert die Keypoint-Detektion die Modellkapazität gegenüber starken Erscheinungsänderungen, die durch Blickwinkelunterschiede verursacht werden. (2) Der USAM ist einfach zu implementieren und lässt sich nahtlos mit bestehenden Methoden kombinieren, wodurch die state-of-the-art-Leistung weiter verbessert wird. Wir erzielen wettbewerbsfähige Genauigkeiten bei der Geo-Lokalisierung auf drei anspruchsvollen Datensätzen, nämlich University-1652, CVUSA und CVACT. Unser Quellcode ist unter https://github.com/AggMan96/RK-Net verfügbar.