HyperAIHyperAI
vor 2 Monaten

Eine Transformer-basierte Merkmalssegmentierung und Regionsausrichtungsmethode für die Geo-Lokalisierung von UAV-Aufnahmen

Dai, Ming ; Hu, Jianhong ; Zhuang, Jiedong ; Zheng, Enhui
Eine Transformer-basierte Merkmalssegmentierung und Regionsausrichtungsmethode für die Geo-Lokalisierung von UAV-Aufnahmen
Abstract

Die Aufgabe der cross-view Geo-Lokalisierung besteht darin, das gleiche geografische Bild aus verschiedenen Perspektiven zuzuordnen, zum Beispiel von unbemannten Luftfahrzeugen (UAV) und Satelliten. Die größten Herausforderungen sind die Positionsschiebung und die Unsicherheit bezüglich Distanz und Skala. Bestehende Methoden konzentrieren sich hauptsächlich darauf, umfassendere feingranulare Informationen zu extrahieren. Dabei wird jedoch die Bedeutung der Extraktion robuster Merkmalsrepräsentationen und der Auswirkungen der Merkmalsausrichtung unterschätzt. CNN-basierte Methoden haben bei der cross-view Geo-Lokalisierung große Erfolge erzielt. Sie haben jedoch noch einige Einschränkungen, wie zum Beispiel die Tatsache, dass sie nur einen Teil der Informationen in der Umgebung extrahieren können und dass einige Skalierungsoperationen dazu führen, dass feingranulare Informationen verloren gehen.Insbesondere stellen wir eine einfache und effiziente transformerbasierte Struktur vor, die als Feature Segmentation and Region Alignment (FSRA) bezeichnet wird, um die Fähigkeit des Modells zu verbessern, kontextuelle Informationen sowie die Verteilung von Instanzen zu verstehen. Ohne zusätzliche supervisierende Informationen zu verwenden, teilt FSRA Regionen auf Basis der Hitverteilung der Merkmalskarte des Transformers auf und ordnet dann mehrere spezifische Regionen in verschiedenen Ansichten einander zu. Schließlich integriert FSRA jede Region in eine Reihe von Merkmalsrepräsentationen. Der Unterschied besteht darin, dass FSRA Regionen nicht manuell sondern automatisch basierend auf der Hitverteilung der Merkmalskarte segmentiert. Dadurch können spezifische Instanzen auch bei erheblichen Verschiebungen und Skalenänderungen im Bild weiterhin segmentiert und ausgerichtet werden.Darüber hinaus wurde eine Strategie für mehrfaches Sampling vorgeschlagen, um den Unterschied in der Anzahl von Satellitenbildern und Bildern aus anderen Quellen zu überwinden. Experimente zeigen, dass die vorgeschlagene Methode überlegene Leistung bietet und sowohl bei der Ziellokalisierung aus Drohnenansicht als auch bei Drohnennavigation den aktuellen Stand der Technik erreicht. Der Code wird unter https://github.com/Dmmm1997/FSRA veröffentlicht werden.