Une nouvelle méthode de géolocalisation pour les images de drones et de satellites basée sur une attention cohérente entre vues
La géolocalisation a été largement appliquée comme une technique essentielle pour déterminer la longitude et la latitude dans le cadre de la navigation des véhicules aériens sans pilote (UAV) lors de vols en extérieur. En raison des interférences ou des blocages potentiels des signaux GPS, les méthodes basées sur la récupération d’images, qui sont moins sujettes à ces perturbations, ont attiré une attention croissante ces dernières années. La géolocalisation des UAV et des satellites peut être réalisée en interrogeant des images satellites préalablement acquises à l’aide d’images drone étiquetées GPS et prises sous différents angles. Dans cet article, une technique de transformation d’image est utilisée pour extraire des informations de géolocalisation à travers des vues différentes entre UAV et satellites. Une méthode d’apprentissage en une seule étape est proposée pour la géolocalisation UAV-satellite, permettant simultanément l’extraction de caractéristiques transverses et la récupération d’images, et atteignant une précision supérieure à celle des méthodes d’apprentissage multi-étapes existantes. Une nouvelle fonction de perte triplet à marge souple par morceaux est conçue afin d’éviter que les paramètres du modèle ne soient piégés dans des ensembles sous-optimaux dus à l’absence de contrainte sur les échantillons positifs et négatifs. Les résultats montrent que la fonction de perte proposée améliore la précision de la récupération d’images et favorise une convergence plus stable. En outre, une méthode d’augmentation de données pour les images satellites est proposée afin de compenser l’imbalance du nombre d’échantillons. Sur le benchmark University-1652, la méthode proposée atteint un résultat de pointe avec une amélioration de 6,67 % du taux de rappel (R@1) et de 6,13 % de la précision moyenne (AP). Tous les codes seront rendus publics afin de favoriser la reproductibilité.