
要約
注目対象検出は、深層畳み込みニューラルネットワーク(CNN)を使用して抽出された強力な特徴量のおかげで、最近著しい進歩を遂げています。しかし、既存のCNNベースの手法はピクセルレベルではなくパッチレベルで動作します。その結果、注目度マップはしばしばぼやけたものとなり、特に注目対象の境界付近では顕著です。さらに、画像パッチは重複している場合でも独立したサンプルとして扱われるため、計算と記憶領域において大きな冗長性が生じます。本論文(CVPR 2016)では、これらの制限を克服するためのエンドツーエンドの深層コントラストネットワークを提案します。私たちの深層ネットワークは、ピクセルレベルの完全畳み込みストリームとセグメント単位の空間プーリングストリームという2つの補完的なコンポーネントから構成されています。最初のストリームは入力画像から直接ピクセルレベルの精度を持つ注目度マップを生成します。2番目のストリームは非常に効率的にセグメント単位の特徴量を抽出し、オブジェクト境界に沿った注目度の不連続性をよりよくモデル化します。最後に、完全結合CRFモデルがオプションで組み込まれることにより、これらの2つのストリームからの融合結果における空間的一貫性と輪郭位置決めが改善されます。実験結果は、私たちの深層モデルが現行最先端技術に対して大幅に性能を向上させていることを示しています。