HyperAIHyperAI

Command Palette

Search for a command to run...

Simple, efficace et général : un nouveau modèle principal pour la géolocalisation d’images à travers différentes vues

Yingying Zhu Hongji Yang Yuxin Lu Qiang Huang

Résumé

Dans ce travail, nous abordons un problème important mais peu exploré : la conception d’un modèle de base simple et efficace spécifiquement conçu pour la tâche de géolocalisation croisant les vues. Les méthodes existantes pour la géolocalisation croisant les vues sont fréquemment caractérisées par trois limites majeures : 1) des méthodologies complexes, 2) des calculs intensifs en ressources GPU, et 3) une hypothèse rigide selon laquelle les images aériennes et terrestres sont centrées ou alignées selon l’orientation. Pour surmonter ces trois défis liés au correspondance entre images croisant les vues, nous proposons un nouveau réseau de base, nommé Simple Attention-based Image Geo-localization network (SAIG). Le SAIG représente efficacement les interactions à longue portée entre les patches ainsi que les correspondances entre vues grâce à des couches d’attention multi-têtes auto-attentionnelles. L’architecture « étroite-et-profonde » de notre SAIG enrichit les caractéristiques sans dégradation des performances, tandis que son tronc convolutif peu profond et efficace préserve la localité, éliminant ainsi la perte d’information aux frontières des patches. Le SAIG atteint des résultats de pointe sur la tâche de géolocalisation croisant les vues, tout en étant nettement plus simple que les approches antérieures. De plus, avec seulement 15,9 % des paramètres du modèle et une moitié de la dimension de sortie par rapport aux méthodes de pointe, le SAIG s’adapte efficacement à plusieurs jeux de données de géolocalisation croisant les vues, sans recourir à des modules de fusion de caractéristiques soigneusement conçus ni à des algorithmes d’alignement de caractéristiques. En outre, notre SAIG obtient des performances compétitives sur des benchmarks de recherche d’images, démontrant ainsi sa généralisabilité. En tant que réseau de base, le SAIG est à la fois facile à comprendre et léger en termes de calcul, ce qui en fait une solution pertinente pour des applications pratiques. Enfin, nous proposons un module simple de fusion de caractéristiques spatiales mixtes (SMD), capable de combiner et de projeter l’information spatiale dans un espace de faible dimension afin de générer des descripteurs de caractéristiques. (Le code est disponible à l’adresse https://github.com/yanghongji2007/SAIG)


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Simple, efficace et général : un nouveau modèle principal pour la géolocalisation d’images à travers différentes vues | Articles | HyperAI