
要約
シーンセグメンテーションは、画像内のすべてのピクセルにラベルを付与する必要があるため、非常に困難なタスクである。より優れたセグメンテーション性能を達成するためには、判別力のある文脈情報を活用し、マルチスケール特徴を適切に統合することが不可欠である。本論文では、情報量の多い文脈情報を活用するとともに、文脈に対して局所情報を強調する新たな「文脈対比局所特徴(context-contrasted local feature)」を提案する。この特徴は、特に目立たない物体や背景の領域において、パーシング性能を大幅に向上させる。さらに、各空間位置に対してマルチスケール特徴を選択的に統合するための「ゲート付き和(gated sum)」スキームを提案する。このスキームにおけるゲートは、異なるスケールの特徴の情報フローを制御する。ゲートの値は、訓練データから学習されたネットワークによってテスト画像から生成されるため、訓練データだけでなく、具体的なテスト画像に対しても適応可能である。装飾的な要素を一切用いずに、本手法はPascal Context、SUN-RGBD、COCO Stuffの3つの代表的なシーンセグメンテーションデータセットにおいて、一貫して最先端の性能を達成している。