20日前

RGB-D画像のセマンティックセグメンテーションのためのカスケード特徴ネットワーク

{Pheng-Ann Heng, Daniel Cohen-Or, Hui Huang, Di Lin, Guangyong Chen}
RGB-D画像のセマンティックセグメンテーションのためのカスケード特徴ネットワーク
要約

フルコンボリューショナルネットワーク(FCN)は、RGB画像で表現されたシーンの意味的セグメンテーションに成功裏に応用されてきた。深度チャンネルを追加した画像は、画像内のシーンの幾何学的情報についてより豊かな理解を可能にする。その問いは、この追加情報がどのように最適に活用され、セグメンテーション性能を向上させ得るかにある。本論文では、RGB-D画像のセグメンテーションを目的としたマルチブランチ構造のニューラルネットワークを提案する。本手法の核心は、利用可能な深度情報を活用して、物体やシーンの共通する視覚的特徴、あるいは共通する「シーン解像度(scene-resolution)」を持つ層に画像を分割することにある。さらに、学習された特徴に対する関連する文脈情報の制御をより適切に行うため、文脈に敏感な受容field(CaRF: Context-aware Receptive Field)を導入した。CaRFを搭載することで、ネットワークの各ブランチは関連する類似したシーン解像度の領域を意味的にセグメンテーションすることができ、学習がより集中しやすいドメインへと制御される。また、本ネットワークは、一つのブランチから得られた特徴が隣接するブランチの特徴を補完する形でカスケード構造を採用している。本手法により、各ブランチの文脈情報が豊かになり、全体的な性能が向上することが示された。本ネットワークは、2つの公開データセットにおいて、既存の最先端手法を上回る精度を達成した。

RGB-D画像のセマンティックセグメンテーションのためのカスケード特徴ネットワーク | 論文 | HyperAI超神経