Prédiction de la disposition du sol à partir d'images aériennes

Nous présentons une nouvelle stratégie pour l'apprentissage de l'extraction de caractéristiques sémantiquement significatives à partir d'images aériennes. Au lieu d'étiqueter manuellement les images aériennes, nous proposons de prédire des caractéristiques sémantiques (bruitées) extraites automatiquement des images terrestres situées au même emplacement. Notre architecture de réseau prend une image aérienne en entrée, extrait des caractéristiques à l'aide d'un réseau neuronal convolutif, puis applique une transformation adaptative pour mapper ces caractéristiques dans la perspective au niveau du sol. Nous utilisons une approche d'apprentissage de bout en bout pour minimiser la différence entre la segmentation sémantique extraite directement de l'image terrestre et celle prédite uniquement sur la base de l'image aérienne. Nous montrons qu'un modèle appris selon cette stratégie, sans formation supplémentaire, est déjà capable d'une étiquetage sémantique approximatif des images aériennes. De plus, nous démontrons que par le biais d'un affinage de ce modèle, nous pouvons obtenir une segmentation sémantique plus précise que deux stratégies initiales de référence. Nous utilisons notre réseau pour aborder la tâche d'estimation de la géolocalisation et de la géo-orientation d'une image terrestre. Enfin, nous montrons comment les caractéristiques extraites d'une image aérienne peuvent être utilisées pour générer un panorama plausible au niveau du sol (halluciner).