17日前
高解像度リモートセンシング画像向けの新規Transformerベースのセマンティックセグメンテーション手法
Libo Wang, Rui Li, Chenxi Duan, Ce Zhang, Xiaoliang Meng, Shenghui Fang

要約
エンコーダ・デコーダ構造を備えた完全畳み込みネットワーク(FCN)は、意味的セグメンテーションの標準的なアーキテクチャとして広く用いられてきた。このエンコーダ・デコーダ構造は、エンコーダによりマルチレベルの特徴マップを抽出し、デコーダによってそれらを統合して最終的な予測を行う。正確なセグメンテーションには文脈情報が極めて重要であるため、膨大な研究努力が、膨張(dilated)/アトロス(atrous)畳み込みや注目モジュールの導入など、知能的な文脈情報の抽出に向けられてきた。しかし、これらのアプローチはすべてResNetなど特定のバックボーンを用いたFCNアーキテクチャに基づいており、理論的に得られる文脈情報を十分に活用できていない。これに対し、本研究では文脈情報を効果的に抽出するため、バックボーンとしてSwin Transformerを採用し、特徴マップの密度結合集約モジュール(DCFAM)を新たに設計することで、解像度の復元とセグメンテーションマップの生成を実現した。本手法は、2つのリモートセンシング意味的セグメンテーションデータセットにおける実験により、有効性が実証された。コードは以下のGitHubページで公開されている:https://github.com/WangLibo1995/GeoSeg