Réseau de Relations Conscient du Premier Plan pour la Segmentation d'Objets Géospatiaux dans les Images de Télédétection à Haute Résolution Spatiale

Le segmention d'objets géospatiaux, en tant que tâche de segmentation sémantique particulière, est toujours confrontée à des variations d'échelle plus importantes, à une variance interclasse plus grande du fond et à un déséquilibre entre premier plan et arrière-plan dans les images de télédétection à haute résolution spatiale (HSR). Cependant, les méthodes générales de segmentation sémantique se concentrent principalement sur les variations d'échelle dans les scènes naturelles, sans prendre suffisamment en compte les deux autres problèmes qui surviennent généralement dans les scènes d'observation terrestre à grande échelle. Dans cet article, nous soutenons que ces problèmes découlent du manque de modélisation du premier plan et proposons un réseau relationnel sensible au premier plan (FarSeg) sous l'angle de la modélisation relationnelle et optimisation basées sur le premier plan, afin d'atténuer ces deux problèmes. Du point de vue relationnel, FarSeg améliore la discrimination des caractéristiques du premier plan grâce aux contextes corrélés au premier plan associés par l'apprentissage des relations scène-premier plan. Parallèlement, sous l'angle de l'optimisation, une optimisation sensible au premier plan est proposée pour se concentrer sur les exemples du premier plan et les exemples difficiles de l'arrière-plan pendant l'entraînement, afin d'obtenir une optimisation équilibrée. Les résultats expérimentaux obtenus à partir d'un grand ensemble de données suggèrent que la méthode proposée est supérieure aux méthodes générales de segmentation sémantique de pointe et atteint un meilleur compromis entre vitesse et précision. Le code source est disponible à l'adresse suivante : \url{https://github.com/Z-Zheng/FarSeg}.