
要約
本論文では、単一のRGB画像を入力として、前景のアルファマットを予測するための深層畳み込みニューラルネットワークの構造を検討する。本ネットワークは完全畳み込み型であり、前景と背景の分類をそれぞれ別々のデコーダブランチで処理する。その後、これらの二つの分類結果を統合するための融合ブランチを用いて、ソフトセグメンテーションとしてのアルファ値を生成する。この設計により、訓練過程においてより優れたアルファ値を取得するための自由度が、単一のデコーダブランチを持つネットワークよりも高くなる。また、本ネットワークはユーザーの介入なしに暗黙的にトリマップを生成できるため、デジタルマッティングの専門知識を持たない初心者にとっても使いやすい。実験結果から、本手法が多様な物体に対して高品質なアルファマットを生成でき、人間の画像マッティングタスクにおいて、従来の最先端のCNNベースの画像マッティング手法を上回ることを示した。