il y a 11 jours

Simple, efficace et général : un nouveau modèle principal pour la géolocalisation d’images à travers différentes vues

Yingying Zhu, Hongji Yang, Yuxin Lu, Qiang Huang

Résumé

Dans ce travail, nous abordons un problème important mais peu exploré : la conception d’un modèle de base simple et efficace spécifiquement conçu pour la tâche de géolocalisation croisant les vues. Les méthodes existantes pour la géolocalisation croisant les vues sont fréquemment caractérisées par trois limites majeures : 1) des méthodologies complexes, 2) des calculs intensifs en ressources GPU, et 3) une hypothèse rigide selon laquelle les images aériennes et terrestres sont centrées ou alignées selon l’orientation. Pour surmonter ces trois défis liés au correspondance entre images croisant les vues, nous proposons un nouveau réseau de base, nommé Simple Attention-based Image Geo-localization network (SAIG). Le SAIG représente efficacement les interactions à longue portée entre les patches ainsi que les correspondances entre vues grâce à des couches d’attention multi-têtes auto-attentionnelles. L’architecture « étroite-et-profonde » de notre SAIG enrichit les caractéristiques sans dégradation des performances, tandis que son tronc convolutif peu profond et efficace préserve la localité, éliminant ainsi la perte d’information aux frontières des patches. Le SAIG atteint des résultats de pointe sur la tâche de géolocalisation croisant les vues, tout en étant nettement plus simple que les approches antérieures. De plus, avec seulement 15,9 % des paramètres du modèle et une moitié de la dimension de sortie par rapport aux méthodes de pointe, le SAIG s’adapte efficacement à plusieurs jeux de données de géolocalisation croisant les vues, sans recourir à des modules de fusion de caractéristiques soigneusement conçus ni à des algorithmes d’alignement de caractéristiques. En outre, notre SAIG obtient des performances compétitives sur des benchmarks de recherche d’images, démontrant ainsi sa généralisabilité. En tant que réseau de base, le SAIG est à la fois facile à comprendre et léger en termes de calcul, ce qui en fait une solution pertinente pour des applications pratiques. Enfin, nous proposons un module simple de fusion de caractéristiques spatiales mixtes (SMD), capable de combiner et de projeter l’information spatiale dans un espace de faible dimension afin de générer des descripteurs de caractéristiques. (Le code est disponible à l’adresse https://github.com/yanghongji2007/SAIG)