GAMUS:リモートセンシングデータ向け幾何学的注意型マルチモーダルセマンティックセグメンテーションベンチマーク

正規化デジタル表面モデル(nDSM)における幾何学的情報は、地表面被覆の意味論的クラスと強く相関している。RGBとnDSM(高さ)という2つのモダリティを統合的に活用することは、セグメンテーション性能の向上に大きな可能性を秘めている。しかし、以下の課題があるため、リモートセンシング分野においてはまだ十分に探求されていない。第一に、既存データセットのスケールが比較的小さく、データセットの多様性も限られているため、モデルの検証能力が制限されている。第二に、性能評価のための統一されたベンチマークが不足しているため、異なるモデル間の効果性を比較することが困難である。第三に、リモートセンシングデータに対して、洗練されたマルチモーダル意味セグメンテーション手法の深層的な探索がなされていない。これらの課題に対処するため、本稿ではRGB-Height(RGB-H)データに基づく、マルチモーダル意味セグメンテーションのための新しいリモートセンシングベンチマークデータセットを提案する。既存手法の公正かつ包括的な分析を実現するため、提案するベンチマークは以下の2点を含む:1)共登録されたRGB画像とnDSMペア、およびピクセル単位の意味ラベルを含む大規模データセット;2)畳み込みネットワークおよびTransformerベースのネットワークにおける既存のマルチモーダル融合戦略について、リモートセンシングデータ上で包括的な評価と分析。さらに、適応的なトークンレベルでのマルチモーダル融合により、意味セグメンテーション性能を向上させる、新しい効果的なTransformerベースの中間融合モジュール(TIMF)を提案する。設計されたベンチマークは、リモートセンシングデータにおける新たなマルチモーダル学習手法の開発を促進するものとなる。実験結果を通じて、これらの手法に対する広範な分析が行われ、貴重な知見が得られている。ベンチマークおよびベースラインコードは、\url{https://github.com/EarthNets/RSI-MMSegmentation} にて公開されている。