EarthVQA : Vers une Terre Interrogeable par le Biais de la Réponse à des Questions Visuelles Basée sur le Raisonnement Relationnel en Télédétection

La recherche en vision terrestre se concentre généralement sur l'extraction des emplacements et des catégories d'objets géospatiaux, mais néglige l'exploration des relations entre les objets et la raisonnement global. En fonction des besoins de la planification urbaine, nous avons développé un jeu de données VQA multi-modale et multi-tâche (EarthVQA) pour améliorer le jugement, le décompte et l'analyse globale basés sur le raisonnement relationnel. Le jeu de données EarthVQA contient 6000 images, des masques sémantiques correspondants et 208 593 paires de questions-réponses intégrant les exigences de gouvernance urbaine et rurale. Comme les objets constituent la base du raisonnement relationnel complexe, nous proposons un cadre de Conscience Sémantique des Objets (SOBA) pour avancer dans le VQA d'une manière centrée sur les objets. Pour préserver des localisations spatiales précises et des sémantiques, SOBA utilise un réseau de segmentation pour générer les sémantiques des objets. L'attention guidée par les objets agrège les caractéristiques internes des objets via des masques pseudo, tandis que l'attention croisée bidirectionnelle modèle hiérarchiquement les relations externes entre les objets. Pour optimiser le décompte des objets, nous proposons une perte de différence numérique qui ajoute dynamiquement des pénalités de différence, unifiant ainsi les tâches de classification et de régression. Les résultats expérimentaux montrent que SOBA surpassent à la fois les méthodes générales avancées et celles du télédépistage. Nous croyons que ce jeu de données et ce cadre fournissent un point de référence solide pour l'analyse complexe en vision terrestre. La page du projet est disponible à l'adresse suivante : https://Junjue-Wang.github.io/homepage/EarthVQA.