Apprentissage contrastif guidé par l'orientation pour la géolocalisation à partir de vues aériennes de drones

La récupération de contenu multimédia pertinent est l'un des principaux défis dans un monde de plus en plus axé sur les données. Avec la prolifération des drones, des images aériennes de haute qualité sont désormais accessibles à un large public pour la première fois. L'intégration de ces images dans des applications peut permettre une géolocalisation sans GPS ou une correction de position.Dans cet article, nous présentons un cadre d'entraînement guidé par l'orientation pour la géolocalisation en vue UAV (drones). Grâce à une localisation hiérarchique, les orientations des images UAV sont estimées par rapport aux images satellites. Nous proposons un module de prédiction léger pour ces pseudo-étiquettes, qui prédit l'orientation entre les différentes vues en se basant sur les plongements appris par contraste. Nos expérimentations démontrent que cette prédiction soutient l'entraînement et surpassent les approches précédentes. Les pseudo-étiquettes extraites permettent également une rotation alignée de l'image satellite comme technique d'augmentation, renforçant ainsi davantage la généralisation. Lors de l'inférence, nous n'avons plus besoin de ce module d'orientation, ce qui signifie qu'aucun calcul supplémentaire n'est requis.Nous obtenons des résultats d'état de l'art sur les jeux de données University-1652 et University-160k.