2ヶ月前

意味分割のためのコンテキストエンコーディング

Hang Zhang; Kristin Dana; Jianping Shi; Zhongyue Zhang; Xiaogang Wang; Ambrish Tyagi; Amit Agrawal
意味分割のためのコンテキストエンコーディング
要約

最近の研究では、Fully Convolutional Network (FCN) フレームワークを用いてピクセル単位のラベリングの空間解像度を向上させるために、Dilated/Atrous 畳み込みの利用、多尺度特徴量の活用、および境界の洗練化に注力し、著しい進歩が見られています。本論文では、Context Encoding Module を導入することでセマンティックセグメンテーションにおける全体的な文脈情報の影響を探ります。このモジュールはシーンのセマンティックコンテキストを捉え、クラス依存の特徴マップを選択的に強調します。提案された Context Encoding Module は、FCN に対して僅かな追加計算コストでセマンティックセグメンテーション結果を大幅に改善します。当方の手法は PASCAL-Context において 51.7% の mIoU(平均交差率)と PASCAL VOC 2012 において 85.9% の mIoU を達成し、新しい最先端の結果を示しています。さらに、単一モデルで ADE20K テストセットにおいて最終スコア 0.5567 を達成しており、これは 2017 年 COCO-Place チャレンジでの優勝エントリーを上回るものです。また、Context Encoding Module が比較的浅いネットワークにおける画像分類タスクにおいて特徴表現をどのように改善するかについても探求しました。CIFAR-10 データセットを使用した実験では、14 層ネットワークが誤認識率 3.45% を達成し、層数が10倍以上の最先端手法と同等の性能を示しています。本システムのソースコードは公開されています。