BEV-CV : Transformation de Vue Oiseau pour la Géolocalisation Transversale

L'appariement d'images à vue croisée pour la géolocalisation est un problème complexe en raison des différences visuelles significatives entre les points de vue aériens et au niveau du sol. Cette méthode offre des capacités de localisation à partir d'images géoréférencées, éliminant ainsi le besoin d'appareils externes ou d'équipements coûteux. Cela améliore la capacité des agents à déterminer leur position de manière autonome, à naviguer et à opérer efficacement dans des environnements où le système de navigation par satellite (GNSS) n'est pas disponible. Les recherches actuelles utilisent diverses techniques pour réduire l'écart de domaine, comme l'application de transformations polaires aux images aériennes ou la synthèse entre les perspectives. Cependant, ces approches dépendent généralement d'un champ de vision de 360°, ce qui limite leur applicabilité dans le monde réel.Nous proposons BEV-CV, une approche qui introduit deux innovations majeures visant à améliorer la viabilité réelle de la géolocalisation à vue croisée. Premièrement, en transformant les images au niveau du sol en une vue d'oiseau sémantique avant l'appariement des plongements (embeddings), nous permettons une comparaison directe avec les représentations d'images aériennes. Deuxièmement, nous adaptons les jeux de données à un format réaliste pour les applications - des images avec un champ de vision limité alignées sur la direction du véhicule.BEV-CV atteint des performances de rappel (recall) record, améliorant respectivement les taux Top-1 des coupes 70° du CVUSA et du CVACT de 23% et 24%. En outre, cette méthode réduit également les exigences computationnelles en diminuant le nombre d'opérations en virgule flottante sous celui des travaux précédents, et en réduisant la dimensionnalité des plongements (embeddings) de 33%. Ces améliorations permettent ensemble une localisation plus rapide.