TransGeo : Transformer est tout ce dont vous avez besoin pour la géolocalisation d’images à vue multiple

Les méthodes dominantes basées sur les réseaux de neurones convolutifs (CNN) pour la géolocalisation d’images à travers différentes vues reposent sur une transformation polaire et échouent à modéliser les corrélations globales. Nous proposons une approche entièrement fondée sur les transformateurs (TransGeo) afin de surmonter ces limitations sous un angle différent. TransGeo exploite pleinement les forces des transformateurs en matière de modélisation d’informations globales et d’encodage explicite des positions. Nous tirons également parti de la flexibilité des entrées des transformateurs en proposant une méthode de découpage non uniforme guidée par l’attention, permettant d’éliminer les patches d’image peu informatifs avec une perte négligeable de performance, tout en réduisant ainsi le coût computationnel. La computation ainsi économisée peut être réaffectée pour augmenter uniquement la résolution des patches informatifs, entraînant une amélioration des performances sans coût computationnel supplémentaire. Cette stratégie « attention puis zoom » est fortement inspirée du comportement humain lors de l’observation d’images. Notamment, TransGeo atteint des résultats de pointe sur les jeux de données urbains et ruraux, avec un coût computationnel significativement inférieur à celui des méthodes basées sur les CNN. Elle ne dépend pas de la transformation polaire et opère plus rapidement que les méthodes CNN. Le code est disponible à l’adresse suivante : https://github.com/Jeff-Zilence/TransGeo2022.