
要約
画像マッティングは、コンピュータビジョンの基本的な問題であり、多くの応用があります。従来のアルゴリズムは、画像に類似した前景色と背景色や複雑なテクスチャが存在する場合、性能が低下します。その主な理由は、以前の手法が 1) 低レベルの特徴のみを使用し、2) 高レベルの文脈を欠いているためです。本論文では、これらの問題を解決する新しい深層学習に基づくアルゴリズムを提案します。私たちの深層モデルには2つの部分があります。第1部分は、画像と対応するトリマップを入力として受け取り、画像のアルファマットを予測する深層畳み込みエンコーダー-デコーダーネットワークです。第2部分は、第1ネットワークによって予測されたアルファマットをより正確なアルファ値と鋭いエッジを持つように改良する小さな畳み込みネットワークです。さらに、49,300枚の訓練画像と1,000枚のテスト画像を含む大規模な画像マッティングデータセットも作成しました。我々は、画像マッティングベンチマーク、当社のテストセット、および多種多様な実際の画像に対してアルゴリズムを評価しました。実験結果は明確に示しており、我々のアルゴリズムが従来の手法よりも優れていることを証明しています。