6ヶ月前

概要

完全畳み込みネットワークにおける特徴の伝播メカニズムは、多スケールの文脈情報を正確に捉えるために極めて重要である。本論文では、特徴伝播の多様性を高めるため、チェーン接続型のラダースタイル情報フローを用いた新たな並列-直列ハイブリッド構造である「チェインドコンテキスト集約モジュール（Chained Context Aggregation Module, CAM）」を提案する。CAMは、チェーン接続されたラダースタイルの情報フローを通じて多様な空間スケールの特徴を獲得し、前融合（pre-fusion）と再融合（re-fusion）の二段階プロセスでそれらを統合する。直列的な情報フローは出力ニューロンの受容野を連続的に拡大し、並列的な情報フローは異なる領域ベースのコンテキストを符号化する。各情報フローは適切なダウンサンプリングスケールを備えた浅いエンコーダ-デコーダ構造であり、十分なコンテキスト情報を捉えることができる。さらに、CAMではアテンションモデルを導入し、特徴の再融合を効果的に制御する。これらの技術的進展を基に、予測マップの正確な空間的詳細を回復するための非対称デコーダを採用した「チェインドコンテキスト集約ネットワーク（Chained Context Aggregation Network, CANet）」を構築した。本研究では、Pascal VOC 2012、Pascal Context、Cityscapes、CamVid、SUN-RGBD、GATECHの6つの難易度の高いデータセットにおいて広範な実験を実施した。実験結果は、CANetが最先端の性能を達成していることを実証している。

ソースPDF