6 个月前

摘要

尽管高分辨率遥感影像中的地表覆盖分类任务在语义分割领域取得了快速发展，但如何有效融合数字表面模型（DSM）、RGB影像与近红外（NIR）等多源数据模态，仍是当前面临的重要挑战。现有方法通常仅处理两类数据，难以充分利用额外模态所蕴含的丰富信息。为弥补这一不足，本文提出一种新型轻量级多模态数据融合网络——LMFNet（Lightweight Multimodal data Fusion Network），旨在实现多模态遥感影像的高效融合与语义分割。LMFNet通过一种权重共享的多分支视觉Transformer架构，能够同时处理RGB、NirRG与DSM等多种数据类型，在显著减少参数量的同时，保障了强大的特征提取能力。所提出的多模态融合模块包含两个核心组件：多模态特征融合重建层与多模态特征自注意力融合层，可有效实现多源特征的重构与深度融合。在US3D、ISPRS Potsdam和ISPRS Vaihingen等公开数据集上的大量实验验证了LMFNet的有效性。具体而言，在US3D数据集上，LMFNet取得了85.09%的平均交并比（mIoU），显著优于现有方法。相较于单模态方法，LMFNet在仅增加0.5M参数量的情况下，mIoU提升达10%；与双模态方法相比，采用三模态输入的本方法在mIoU上进一步提升了0.46个百分点，充分展现了其在多模态信息融合方面的优越性能。

源 PDF