17日前
Transformerと畳み込みの融合:超高解像度都市景観画像におけるセマンティックセグメンテーションのためのバイラテラルアウェアネスネットワーク
Libo Wang, Rui Li, Dongzhi Wang, Chenxi Duan, Teng Wang, Xiaoliang Meng

要約
非常に高い解像度(VFR)の都市景観画像からの意味的セグメンテーションは、自動運転、土地被覆分類、都市計画など、多くの応用シーンにおいて重要な役割を果たしている。しかし、VFR画像に含まれる膨大な詳細、特に物体のスケールおよび外観の顕著な変動は、既存の深層学習アプローチの可能性を著しく制限している。このような課題に対処することは、リモートセンシング分野において有望な研究分野であり、シーンレベルの景観パターン解析および意思決定の実現に道を開くものである。本論文では、長距離の関係性と微細な詳細を十分に捉えることを目的として、依存性パスとテクスチャパスを備えたバイラテラルアウェアネスネットワーク(BANet)を提案する。具体的には、依存性パスは、メモリ効率の高いマルチヘッド自己注意機構を備えた新しいTransformerバックボーンであるResTに基づいて構築され、テクスチャパスは積層された畳み込み演算に基づいている。さらに、線形注意機構を用いて、依存性特徴とテクスチャ特徴を効果的に統合する特徴統合モジュールを設計した。ISPRS Vaihingenデータセット、ISPRS Potsdamデータセット、UAVidデータセットの3つの大規模都市景観画像セグメンテーションデータセットを用いた広範な実験により、本手法の有効性が実証された。特にUAVidデータセットにおいて、64.6%のmIoUを達成した。コードは、https://github.com/WangLibo1995/GeoSeg にて公開されている。