Segmentation au niveau des pixels d'images aériennes

Les images aériennes peuvent être utilisées pour des travaux d’importance à l’échelle mondiale. Néanmoins, l’analyse de ces données à l’aide d’architectures de réseaux neuronaux reste en retard par rapport aux performances actuelles de l’état de l’art sur des jeux de données populaires tels que PASCAL VOC, Cityscapes et CamVid. Dans cet article, nous comblons l’écart de performance entre ces jeux de données populaires et les données d’images aériennes. Peu de travaux ont été menés sur les images aériennes en utilisant des architectures de réseaux neuronaux de pointe dans un cadre multi-classes. Nos expériences portant sur la transformation des données (data augmentation), la normalisation, la taille des images et les fonctions de perte fournissent des insights précieux pour établir une configuration à haute performance sur les jeux de données de segmentation d’images aériennes. Grâce à l’architecture de pointe DeepLabv3+ Xception65, notre méthode atteint un IOU moyen de 70 % sur l’ensemble de validation DroneDeploy. Ce résultat nous permet de surpasser clairement la performance actuelle de l’état de l’art publiée sur l’ensemble de validation (65 %) de 5 points de pourcentage. En outre, à notre connaissance, aucun benchmark en IOU moyen (mIOU) n’existe actuellement pour l’ensemble de test. Nous proposons donc un nouveau benchmark sur l’ensemble de test DroneDeploy, en utilisant l’architecture DeepLabv3+ Xception65 la plus performante, atteignant un score mIOU de 52,5 %.