SkyScapes : Compréhension sémantique fine des scènes aériennes

Comprendre l’infrastructure urbaine complexe avec une précision au niveau du centimètre est essentiel pour de nombreuses applications, allant de la conduite autonome à la cartographie, la surveillance des infrastructures et la gestion urbaine. Les images aériennes fournissent des informations précieuses sur de vastes zones en temps réel ; toutefois, aucun jeu de données actuel ne capture la complexité des scènes aériennes à la granularité requise par les applications du monde réel. Pour remédier à ce manque, nous introduisons SkyScapes, un jeu de données d’images aériennes doté d’annotations très précises et fines pour une étiquetage sémantique au niveau des pixels. SkyScapes propose des annotations pour 31 catégories sémantiques, allant des grandes structures telles que les bâtiments, les routes et la végétation, jusqu’aux détails fins, comme 12 sous-catégories de marquages routiers. Nous avons défini deux tâches principales sur ce jeu de données : la segmentation sémantique dense et la prédiction multi-classe des marquages routiers. Nous menons des expériences approfondies pour évaluer les méthodes de segmentation les plus avancées sur SkyScapes. Les méthodes existantes peinent à traiter la large gamme de classes, de tailles d’objets, d’échelles et de détails fins présents dans les données. Nous proposons donc un nouveau modèle multi-tâches, intégrant la détection de contours sémantiques et mieux adapté à l’extraction de caractéristiques à partir d’une large gamme d’échelles. Ce modèle obtient des améliorations significatives par rapport aux méthodes de référence, tant en termes de précision des contours des régions que de niveau de détail, sur les deux tâches.