iSAID : Un grand ensemble de données pour la segmentation d'instances dans les images aériennes

Les jeux de données existants dans le domaine de la vision terrestre sont généralement adaptés pour la segmentation sémantique ou la détection d'objets. Dans cette étude, nous présentons le premier jeu de données de référence pour la segmentation d'instances dans les images aériennes, combinant les tâches de détection d'objets au niveau des instances et de segmentation au niveau des pixels. Par rapport à la segmentation d'instances dans les scènes naturelles, les images aériennes présentent des défis uniques, tels qu'un grand nombre d'instances par image, des variations importantes de l'échelle des objets et une abondance d'objets minuscules. Notre vaste et dense Jeu de Données de Segmentation d'Instances dans les Images Aériennes (iSAID) comprend 655 451 instances d'objets réparties en 15 catégories sur 2 806 images haute résolution. De telles annotations précises au niveau du pixel pour chaque instance garantissent une localisation exacte, essentielle pour l'analyse détaillée des scènes. Comparé aux petits jeux de données existants pour la segmentation d'instances basés sur des images aériennes, iSAID contient 15 fois plus de catégories d'objets et 5 fois plus d'instances. Nous évaluons notre jeu de données en utilisant deux approches populaires de segmentation d'instances pour les images naturelles, à savoir Mask R-CNN et PANet. Nos expérimentations montrent que l'application directe de ces modèles pré-entraînés (off-the-shelf) Mask R-CNN et PANet sur des images aériennes fournit des résultats sous-optimaux en termes de segmentation d'instances, ce qui nécessite donc des solutions spécialisées provenant de la communauté scientifique. Le jeu de données est disponible publiquement à l'adresse suivante : https://captain-whu.github.io/iSAID/index.html