FarSeg++ : Réseau de relation conscient de l’objet frontal pour la segmentation d’objets géospatiaux dans des images satellites à haute résolution spatiale
La segmentation d'objets géospatiaux, une tâche fondamentale de la vision terrestre, est constamment confrontée à des variations d'échelle, à une forte variance intraclass des arrière-plans et à un déséquilibre entre foreground et background dans les images satellites à haute résolution spatiale (HSR). Les méthodes générales de segmentation sémantique se concentrent principalement sur la variation d'échelle dans les scénarios naturels, tandis que les deux autres problèmes restent insuffisamment pris en compte dans les scénarios d'observation de la Terre à grande échelle. Dans cet article, nous proposons un réseau relationnel conscient du foreground (FarSeg++) à partir de trois perspectives : modélisation relationnelle, optimisation orientée et modélisation de l'objectness, afin de atténuer ces deux défis. Du point de vue des relations, le module de relation foreground-scène améliore la discrimination des caractéristiques du foreground grâce aux contextes corrélés au foreground liés à la relation objet-scène. Du point de vue de l'optimisation, une optimisation consciente du foreground est proposée pour accorder une attention particulière aux exemples de foreground et aux exemples difficiles du background pendant l'entraînement, permettant une optimisation équilibrée. En outre, du point de vue de l'objectness, un décodeur conscient du foreground est introduit pour renforcer la représentation de l'objectness, atténuant ainsi le problème de prédiction de l'objectness, identifié comme le principal goulot d'étranglement par une analyse de borne supérieure empirique. Nous introduisons également un nouveau jeu de données à grande échelle et à haute résolution pour la segmentation des véhicules urbains, afin de valider l'efficacité de la méthode proposée et d'encourager davantage le progrès de la prédiction de l'objectness. Les résultats expérimentaux montrent que FarSeg++ surpasser les méthodes de segmentation sémantique génériques les plus avancées et atteint un meilleur compromis entre vitesse et précision.