2 个月前

深度多模态融合用于遥感地球观测数据的语义分割

Ivica Dimitrovski; Vlatko Spasev; Ivan Kitanovski
深度多模态融合用于遥感地球观测数据的语义分割
摘要

准确的遥感影像语义分割对于各种地球观测应用至关重要,例如土地覆盖制图、城市规划和环境监测。然而,单一数据源通常存在局限性。非常高的分辨率(VHR)航空影像提供了丰富的空间细节,但无法捕捉土地覆盖变化的时间信息。相反,卫星图像时间序列(SITS)能够捕捉季节性植被变化等时间动态,但由于空间分辨率有限,难以区分细小尺度的对象。本文提出了一种后期融合深度学习模型(LF-DLM),用于语义分割,该模型充分利用了VHR航空影像和SITS的互补优势。所提出的模型由两个独立的深度学习分支组成。一个分支通过UNetFormer结合多轴视觉变换器(MaxViT)主干网络整合了来自航空影像的详细纹理信息。另一个分支则利用带有时间注意力编码器(U-TAE)的U-Net从Sentinel-2卫星图像时间序列中捕捉复杂的时空动态。这一方法在FLAIR数据集上取得了最先进的结果,该数据集是一个大规模基准测试集,用于多源光学影像的土地覆盖分割。研究结果强调了多模态融合在提高遥感应用中语义分割准确性和鲁棒性的重要性。