15日前

SDSC-UNet:建築物抽出のための二重スキップ接続を備えたViTベースのU字型モデル

{Guixu Zhang, Qian Zhang, Renhe Zhang}
要約

グローバルな情報連携の効果を活かして、視覚変換器(Vision Transformers: ViTs)は建築物抽出タスクにおいて広く利用されている。しかし、リモートセンシング(RS)画像における建築物はサイズが著しく異なることが多く、主流のRS画像向けViTベースのセグメンテーションモデルはSwin Transformerを基盤としており、ViTブロック内部に多スケール情報が欠如しているという課題を抱えている。さらに、これらのモデルはViTエンコーダブロックの出力を単一の段階でデコーダに接続するのみであり、エンコーダブロック内のアテンションマップ間の類似性情報を無視しており、デコーダに対してより優れたグローバル依存関係を提供できていない。上記の課題を解決するため、本研究では、内部で多スケール情報を捉えつつ、完全なグローバル依存関係を構築可能な新規のシャントド変換器(Shunted Transformer)を提案する。これにより、純粋なViTベースのU字型モデルを構築し、建築物抽出に適したアーキテクチャを実現した。また、従来のU字型モデルで用いられる単一のスキップ接続構造とは異なり、本モデルでは新たな二重スキップ接続構造を導入した。この構造により、ViTエンコーダブロック内のアテンションマップとその全体出力を同時にデコーダに伝達することで、エンコーダブロックの情報を効果的に活用し、デコーダにより優れたグローバル情報のガイドラインを提供する。このモデルは「シャントド二重スキップ接続UNet(Shunted Dual Skip Connection UNet: SDSC-UNet)」と命名した。さらに、情報を効果的に統合するため、二重スキップアップサンプリング融合モジュール(Dual Skip Upsample Fusion Module: DSUFM)を設計した。本モデルはInria Aerial Image Labeling Datasetにおいて、83.02%のIoUという最先端(SOTA)の性能を達成した。コードは以下のURLから公開される予定である:https://github.com/stdcoutzrh/BuildingExtraction。

SDSC-UNet:建築物抽出のための二重スキップ接続を備えたViTベースのU字型モデル | 最新論文 | HyperAI超神経