17日前

高分解像度画像の意味ラベル付けに向けたEfficientUNetsとTransformerの活用

Hasan AlMarzouqi, Lyes Saad Saoud
高分解像度画像の意味ラベル付けに向けたEfficientUNetsとTransformerの活用
要約

セマンティックセグメンテーションは、膨大なデータを処理しつつ高次元の特徴を学習する手法を必要とする。畳み込みニューラルネットワーク(CNN)は、この目的を達成するための特徴を独自かつ適応的に学習できる。しかし、リモートセンシング画像はサイズが大きく、空間解像度も高いことから、従来のCNNでは全体のシーンを効率的に分析することが困難である。近年、深層トランスフォーマー(deep transformers)は、画像内の異なるオブジェクト間のグローバルな相互作用を記録する能力を実証している。本研究では、畳み込みニューラルネットワークとトランスフォーマーを組み合わせた新たなセグメンテーションモデルを提案し、局所的特徴抽出とグローバル特徴抽出の融合が、リモートセンシング画像におけるセグメンテーションにおいて顕著な利点をもたらすことを示す。さらに、本モデルには、マルチモーダルな入力とネットワーク出力を効率的に表現するための2つの融合層を搭載している。入力融合層は、画像コンテンツと標高地図(DSM)の関係を要約する特徴マップを抽出する。出力融合層では、クラス固有の特徴抽出層と損失関数を用いた新しいマルチタスクセグメンテーション戦略を採用している。最後に、未分類のクラスラベルは、高速進展法(fast-marching method)を用いて、最も近い既知の隣接クラスに変換される。実験結果から、提案手法が最先端技術と比較してセグメンテーションの精度を著しく向上させることを確認した。