HyperAIHyperAI
il y a 2 mois

Fusion multimodale profonde pour la segmentation sémantique des données d'observation terrestre par télédétection

Ivica Dimitrovski; Vlatko Spasev; Ivan Kitanovski
Fusion multimodale profonde pour la segmentation sémantique des données d'observation terrestre par télédétection
Résumé

Une segmentation sémantique précise des images de télédétection est cruciale pour diverses applications d'observation terrestre, telles que la cartographie de l'occupation des sols, l'aménagement urbain et le suivi environnemental. Cependant, les sources de données individuelles présentent souvent des limitations pour cette tâche. Les images aériennes à Très Haute Résolution (THR) fournissent des détails spatiaux riches mais ne peuvent pas capturer les informations temporelles sur les changements d'occupation des sols. Inversement, les séries temporelles d'images satellites (STIS) capturent les dynamiques temporelles, comme les variations saisonnières de la végétation, mais avec une résolution spatiale limitée, ce qui rend difficile la distinction d'objets à petite échelle. Cet article propose un modèle d'apprentissage profond de fusion tardive (LF-DLM) pour la segmentation sémantique qui exploite les forces complémentaires des images aériennes THR et des STIS. Le modèle proposé comprend deux branches d'apprentissage profond indépendantes. La première branche intègre les textures détaillées issues des images aériennes capturées par UNetFormer avec une architecture Multi-Axis Vision Transformer (MaxViT). La seconde branche capture les dynamiques spatio-temporelles complexes provenant des séries temporelles d'images du satellite Sentinel-2 en utilisant un U-Net avec un encodeur d'attention temporelle (U-TAE). Cette approche conduit à des résultats de pointe sur le jeu de données FLAIR, une référence à grande échelle pour la segmentation de l'occupation des sols utilisant des images optiques multi-sources. Les résultats mettent en lumière l'importance de la fusion multi-modalité dans l'amélioration de la précision et de la robustesse de la segmentation sémantique dans les applications de télédétection.