il y a 17 jours

LMFNet : Une Approche Efficace de Fusion Multimodale pour la Segmentation Sémantique dans les Images Satellitaires à Haute Résolution

Tong Wang, Guanzhou Chen, Xiaodong Zhang, Chenxi Liu, Xiaoliang Tan, Jiaqi Wang, Chanjuan He, Wenlin Zhou

Résumé

Malgré l’évolution rapide de la segmentation sémantique pour la classification des couvertures terrestres dans les images satellites à haute résolution, l’intégration de plusieurs modalités de données — telles que le Modèle de Surface Numérique (DSM), les images RGB et le proche infrarouge (NIR) — reste un défi. Les méthodes actuelles traitent souvent uniquement deux types de données, négligeant ainsi l’information riche que les modalités supplémentaires pourraient apporter. Pour combler cette lacune, nous proposons un nouveau réseau de fusion multimodale léger, nommé LMFNet (Lightweight Multimodal data Fusion Network), destiné à réaliser à la fois la fusion et la segmentation sémantique d’images satellites multimodales. LMFNet permet de traiter simultanément différentes types de données — RGB, NirRG et DSM — grâce à une architecture vision transformer à branches multiples partageant les poids, qui minimise le nombre de paramètres tout en assurant une extraction robuste des caractéristiques. Notre module de fusion multimodale intégre une couche de reconstruction de caractéristiques multimodales et une couche d’attention mutuelle sur les caractéristiques multimodales, capables de reconstruire et de fusionner efficacement les représentations issues de différentes modalités. Des tests étendus sur des jeux de données publics tels que US3D, ISPRS Potsdam et ISPRS Vaihingen démontrent l’efficacité de LMFNet. En particulier, il atteint un indice de recouvrement moyen (mIoU) de 85,09 % sur le jeu de données US3D, marquant une amélioration significative par rapport aux méthodes existantes. Par rapport aux approches unimodales, LMFNet améliore le mIoU de 10 % avec seulement une augmentation de 0,5 M de paramètres. De plus, par rapport aux méthodes bimodales, notre approche utilisant trois modalités (trilatérale) améliore le mIoU de 0,46 point de pourcentage.