3ヶ月前

車は空に飛べない:高さ駆動型アテンションネットワークを用いた都市シーンセグメンテーションの向上

Sungha Choi, Joanne T. Kim, Jaegul Choo
車は空に飛べない:高さ駆動型アテンションネットワークを用いた都市シーンセグメンテーションの向上
要約

本稿では、都市景観画像固有の特徴に着目し、都市景観画像のセマンティックセグメンテーションを向上させるための汎用的な追加モジュール「高さ駆動型アテンションネットワーク(Height-Driven Attention Networks, HANet)」を提案する。HANetは、画素の垂直位置に応じて情報量の多い特徴量やクラスを選択的に強調する。都市景観画像において、水平方向に分割された領域ごとの画素単位のクラス分布は著しく異なっている。また、都市景観画像には独自の特徴があるが、多くのセマンティックセグメンテーションネットワークはそのような特徴をアーキテクチャ上に反映していない。本研究で提案するネットワークアーキテクチャは、こうした特徴を有効に活用する能力を組み込み、都市景観データセットを効果的に処理できる。HANetを導入した際、2つのデータセット上で複数のセマンティックセグメンテーションモデルにおいて一貫した性能向上(mIoU)が確認された。広範な定量的分析により、既存モデルに本モジュールを追加する方法が容易かつコスト効率が良いことが示された。特に、ResNet-101をベースとするセグメンテーションモデルにおいて、Cityscapesベンチマークで新たなSOTA(最先端)性能を達成し、他モデルと比較して大幅な性能差を示した。さらに、アテンションマップの可視化と解釈を通じて、提案モデルが都市景観に観察される実際の事実と整合していることを示した。本研究のコードおよび学習済みモデルは、https://github.com/shachoi/HANet にて公開されている。