Au-delà de la géolocalisation : Orientation fine des images de vue de rue par appariement inter-vues avec des images satellites, avec matériaux supplémentaires

Les images de vue de rue nous offrent de nouvelles expériences pour explorer différents lieux à distance. Les images de vue de rue soigneusement calibrées (par exemple, Google Street View) peuvent être utilisées pour diverses tâches en aval, telles que la navigation et l'extraction de caractéristiques cartographiques. Avec l'augmentation de la qualité des caméras personnelles et leur coût beaucoup plus abordable et leur portabilité, une quantité énorme d'images de vue de rue collectées par le public est téléchargée sur Internet, mais généralement avec des informations capteur manquantes ou bruyantes. Pour préparer ce trésor caché à un statut « prêt à l'emploi », déterminer les informations de localisation manquantes et les angles d'orientation de la caméra sont deux tâches également importantes. Les méthodes récentes ont obtenu des performances élevées dans la géolocalisation des images de vue de rue grâce au couplage inter-vues avec un ensemble d'images satellites géoréférencées. Cependant, la plupart des travaux existants se concentrent davantage sur la géolocalisation que sur l'estimation de l'orientation des images. Dans cette étude, nous réaffirmons l'importance de trouver une orientation fine-grained (à grain fin) pour les images de vue de rue, définissons formellement le problème et fournissons un ensemble de métriques d'évaluation pour mesurer la qualité de l'estimation d'orientation. Nous proposons deux méthodes pour améliorer la granularité de l'estimation d'orientation, atteignant une précision de 82,4 % et 72,3 % pour les images avec des erreurs d'angles estimés inférieures à 2 degrés dans les ensembles CVUSA et CVACT, correspondant respectivement à des améliorations absolues de 34,9 % et 28,2 % par rapport aux travaux précédents. L'intégration de l'estimation fine-grained (à grain fin) d'orientation lors du processus d'apprentissage améliore également les performances en géolocalisation, offrant un rappel en tête 1 (top 1 recall) de 95,5 % / 85,5 % et 86,8 % / 80,4 % pour les tests où l'orientation est connue / inconnue sur les deux ensembles.Note: J'ai conservé "fine-grained" en anglais entre parenthèses car c'est un terme technique couramment utilisé dans les publications scientifiques francophones. Si vous préférez une traduction complète en français, je peux remplacer "fine-grained" par "à grain fin".