HyperAIHyperAI
il y a 2 mois

University-1652 : Un jeu de données multi-vues et multi-sources pour la géolocalisation basée sur les drones

Zheng, Zhedong ; Wei, Yunchao ; Yang, Yi
University-1652 : Un jeu de données multi-vues et multi-sources pour la géolocalisation basée sur les drones
Résumé

Nous abordons le problème de la géolocalisation inter-vues. Le principal défi de cette tâche est d'apprendre des caractéristiques robustes face à de grands changements de point de vue. Les benchmarks existants peuvent aider, mais ils sont limités en termes de nombre de points de vue. Des paires d'images, contenant deux points de vue, par exemple, une vue satellite et une vue au sol, sont généralement fournies, ce qui peut compromettre l'apprentissage des caractéristiques. Outre les caméras de smartphones et les satellites, dans cet article, nous soutenons que les drones pourraient servir de troisième plateforme pour traiter le problème de géolocalisation. Contrairement aux images traditionnelles prises au sol, les images prises depuis un drone rencontrent moins d'obstacles, comme les arbres, et peuvent offrir une vue complète lorsqu'ils volent autour du lieu cible.Pour vérifier l'efficacité de la plateforme drone, nous présentons un nouveau benchmark multi-vues et multi-sources pour la géolocalisation basée sur les drones, nommé University-1652. University-1655 contient des données provenant de trois plateformes : des drones synthétiques (synthetic drones), des satellites et des caméras au sol couvrant 1 652 bâtiments universitaires à travers le monde. À notre connaissance, University-1652 est le premier ensemble de données basé sur les drones pour la géolocalisation et permet d'aborder deux nouvelles tâches : la localisation cible par drone et la navigation par drone.Comme son nom l'indique, la localisation cible par drone vise à prédire l'emplacement du lieu cible à partir d'images prises depuis un drone. D'autre part, étant donné une image d'interrogation en vue satellite, la navigation par drone consiste à guider le drone vers la zone d'intérêt indiquée dans l'image d'interrogation. Nous utilisons cet ensemble de données pour analyser diverses caractéristiques CNN pré-existantes et proposons une forte baseline CNN sur ce dataset particulièrement difficile. Les expériences montrent que University-1652 aide le modèle à apprendre des caractéristiques invariantes aux points de vue et présente également une bonne capacité généralisatrice dans un scénario réel.