17日前

LMFNet:高分解能リモートセンシングにおけるセマンティックセグメンテーションのための効率的なマルチモーダル統合手法

Tong Wang, Guanzhou Chen, Xiaodong Zhang, Chenxi Liu, Xiaoliang Tan, Jiaqi Wang, Chanjuan He, Wenlin Zhou
LMFNet:高分解能リモートセンシングにおけるセマンティックセグメンテーションのための効率的なマルチモーダル統合手法
要約

高分解能リモートセンシング画像における土地被覆分類のための意味的セグメンテーション技術は急速に進化しているが、デジタル表面モデル(DSM)、RGB、近赤外線(NIR)など複数のデータモダリティを統合する課題は依然として残っている。現在の手法はしばしば2種類のデータしか処理できず、追加のモダリティから得られる豊富な情報の活用を逃している。このギャップを埋めるために、本研究ではマルチモーダルリモートセンシング画像の融合と意味的セグメンテーションを実現する新たな軽量マルチモーダルデータ融合ネットワーク(LMFNet)を提案する。LMFNetは、重み共有型のマルチブランチビジョン変換器を用いて、RGB、NirRG、DSMといった複数のデータタイプを同時に処理可能であり、パラメータ数を最小限に抑えつつ、堅牢な特徴抽出を実現している。提案するマルチモーダル融合モジュールには、マルチモーダル特徴融合再構成層とマルチモーダル特徴自己注意融合層が含まれており、複数モダリティの特徴を効果的に再構成・融合することが可能である。US3D、ISPRS Potsdam、ISPRS Vaihingenといった公開データセットを用いた広範な実験により、LMFNetの有効性が実証された。特に、US3Dデータセットにおいて平均交差率(mIoU)85.09%を達成し、既存手法と比較して顕著な性能向上を示した。単モーダル手法と比較して、パラメータ数の増加がわずか0.5Mにとどまる中で、mIoUが10%向上した。また、二モーダル手法と比較しても、三モーダル入力による本手法はmIoUを0.46ポイント向上させた。