11日前

UNetFormer:リモートセンシング都市景観画像の効率的セマンティックセグメンテーションを目的としたUNet型Transformer

Libo Wang, Rui Li, Ce Zhang, Shenghui Fang, Chenxi Duan, Xiaoliang Meng, Peter M. Atkinson
UNetFormer:リモートセンシング都市景観画像の効率的セマンティックセグメンテーションを目的としたUNet型Transformer
要約

遠隔測定による都市景観画像の意味的セグメンテーションは、土地被覆マッピング、都市変化検出、環境保護、経済評価など、幅広い実用的応用において不可欠である。近年、深層学習技術の急速な発展に伴い、畳み込みニューラルネットワーク(CNN)は長年にわたり意味的セグメンテーションの主流を占めてきた。CNNは階層的な特徴表現を採用しており、局所的な情報抽出において優れた性能を発揮するが、畳み込み層の局所性により、グローバルな文脈情報を捉える能力に制限がある。一方、コンピュータビジョン分野における注目テーマとして注目されているTransformerは、グローバル情報モデリングにおいて大きな潜在能力を示しており、画像分類、物体検出、特に意味的セグメンテーションを含む多数の視覚関連タスクの性能向上に寄与している。本研究では、Transformerベースのデコーダーを提案し、UNetに類似した構造を持つTransformer(UNetFormer)を構築することで、リアルタイムにおける都市景観セグメンテーションを実現した。効率的なセグメンテーションを実現するため、UNetFormerは軽量なResNet18をエンコーダとして選定し、デコーダ内でグローバルかつ局所的な情報を効果的にモデル化するための効率的なグローバル-ローカルアテンション機構を導入した。広範な実験の結果、本手法は最先端の軽量モデルと比較して、処理速度が向上するだけでなく、高い精度も達成した。具体的には、UAVidおよびLoveDAデータセットにおいて、それぞれ67.8%および52.4%のmIoUを達成した一方で、単一のNVIDIA GTX 3090 GPU上で512×512の入力に対して最大322.4 FPSの推論速度を実現した。さらに、本研究で提案するTransformerベースのデコーダーにSwin Transformerエンコーダを組み合わせた場合、Vaihingenデータセットにおいても最先端の性能(F1スコア91.3%、mIoU 84.1%)を達成した。本研究のソースコードは、https://github.com/WangLibo1995/GeoSeg にて公開される予定である。