17日前
注意誘導型チェインドコンテキスト集約によるセマンティックセグメンテーション
Quan Tang, Fagui Liu, Tong Zhang, Jun Jiang, Yu Zhang

要約
完全畳み込みネットワークにおける特徴の伝播メカニズムは、多スケールの文脈情報を正確に捉えるために極めて重要である。本論文では、特徴伝播の多様性を高めるため、チェーン接続型のラダースタイル情報フローを用いた新たな並列-直列ハイブリッド構造である「チェインドコンテキスト集約モジュール(Chained Context Aggregation Module, CAM)」を提案する。CAMは、チェーン接続されたラダースタイルの情報フローを通じて多様な空間スケールの特徴を獲得し、前融合(pre-fusion)と再融合(re-fusion)の二段階プロセスでそれらを統合する。直列的な情報フローは出力ニューロンの受容野を連続的に拡大し、並列的な情報フローは異なる領域ベースのコンテキストを符号化する。各情報フローは適切なダウンサンプリングスケールを備えた浅いエンコーダ-デコーダ構造であり、十分なコンテキスト情報を捉えることができる。さらに、CAMではアテンションモデルを導入し、特徴の再融合を効果的に制御する。これらの技術的進展を基に、予測マップの正確な空間的詳細を回復するための非対称デコーダを採用した「チェインドコンテキスト集約ネットワーク(Chained Context Aggregation Network, CANet)」を構築した。本研究では、Pascal VOC 2012、Pascal Context、Cityscapes、CamVid、SUN-RGBD、GATECHの6つの難易度の高いデータセットにおいて広範な実験を実施した。実験結果は、CANetが最先端の性能を達成していることを実証している。