Une Méthode de Segmentation de Caractéristiques et d'Alignement de Régions Basée sur les Transformers pour la Géolocalisation en Vue Aérienne Non Tripulée (UAV)

La géolocalisation multi-vues est une tâche consistant à appairer la même image géographique prise sous différents angles, par exemple, depuis un véhicule aérien non piloté (UAV) et un satellite. Les défis les plus importants sont le décalage de position et l'incertitude concernant la distance et l'échelle. Les méthodes existantes visent principalement à extraire des informations fines plus complètes. Cependant, elles sous-estiment l'importance d'extraire une représentation de caractéristiques robuste et l'impact de l'alignement des caractéristiques. Les méthodes basées sur les réseaux de neurones convolutifs (CNN) ont connu un grand succès dans la géolocalisation multi-vues. Toutefois, elles présentent encore certaines limitations, comme ne pouvoir extraire qu'une partie des informations du voisinage et certaines opérations de réduction d'échelle qui entraînent la perte d'informations fines.Nous introduisons en particulier une structure simple et efficace basée sur les transformers appelée Segmentation de Caractéristiques et Alignement Régional (FSRA) pour améliorer la capacité du modèle à comprendre les informations contextuelles ainsi que la distribution des instances. Sans utiliser d'informations supervisées supplémentaires, FSRA divise les régions en fonction de la distribution thermique de la carte de caractéristiques du transformer, puis aligne plusieurs régions spécifiques entre différentes vues en une correspondance directe. Enfin, FSRA intègre chaque région dans un ensemble de représentations de caractéristiques. La différence est que FSRA ne divise pas les régions manuellement, mais automatiquement en fonction de la distribution thermique de la carte de caractéristiques. Ainsi, même en présence de décalages importants et de changements d'échelle dans l'image, des instances spécifiques peuvent toujours être divisées et alignées.De plus, une stratégie d'échantillonnage multiple est proposée pour surmonter la disparité entre le nombre d'images satellites et celui d'images provenant d'autres sources. Les expériences montrent que la méthode proposée présente des performances supérieures et atteint l'état de l'art dans les deux tâches de localisation ciblée depuis une vue aérienne sans pilote (drone) et de navigation par drone. Le code sera rendu disponible sur https://github.com/Dmmm1997/FSRA.