Command Palette
Search for a command to run...
Prédiction de la disposition des scènes au niveau du sol à partir d'images aériennes
Prédiction de la disposition des scènes au niveau du sol à partir d'images aériennes
Zhai Menghua Bessinger Zachary Workman Scott Jacobs Nathan
Résumé
Nous introduisons une nouvelle stratégie pour apprendre à extraire des caractéristiques sémantiquement significatives à partir d’images aériennes. Au lieu de marquer manuellement ces images, nous proposons de prédire automatiquement des caractéristiques sémantiques (bruitées) extraites à partir d’images au sol co-localisées. Notre architecture de réseau prend une image aérienne en entrée, extrait des caractéristiques à l’aide d’un réseau de neurones convolutif, puis applique une transformation adaptative afin de projeter ces caractéristiques dans la perspective au sol. Nous utilisons une approche d’apprentissage end-to-end afin de minimiser la différence entre la segmentation sémantique extraite directement de l’image au sol et la segmentation sémantique prédite uniquement à partir de l’image aérienne. Nous montrons qu’un modèle appris selon cette stratégie, sans entraînement supplémentaire, est déjà capable d’effectuer une étiquetage sémantique grossier des images aériennes. En outre, nous démontrons qu’en affinant ce modèle, on peut obtenir une segmentation sémantique plus précise que deux stratégies de mise en route baselines. Nous utilisons notre réseau pour résoudre la tâche d’estimation de la géolocalisation et de la géoorientation d’une image au sol. Enfin, nous illustrons comment les caractéristiques extraites à partir d’une image aérienne peuvent être utilisées pour « halluciner » un panorama au sol plausible.