
要約
自然画像マッティングは、コンピュータビジョンおよびグラフィックス分野において重要な問題である。入力画像のみが与えられ、外部情報がなければ、この問題は不定問題(ill-posed problem)となる。近年の深層学習アプローチは有望な結果を示しているものの、それらはαマット(alpha matte)の推定にとどまっている。本論文では、前景(foreground)とαマットの同時推定を実現するコンテキストに配慮した自然画像マッティング手法を提案する。本手法は、マッティングに必要な情報を効果的に抽出するため、2つのエンコーダー・ネットワークを用いる。特に、局所的な特徴を学習するマッティングエンコーダーと、よりグローバルなコンテキスト情報を取得するコンテキストエンコーダーを採用している。これらの2つのエンコーダーの出力を連結し、デコーダー・ネットワークに供給することで、前景画像とαマットを同時に推定する。この全体的な深層ニューラルネットワークを訓練する際には、標準的なラプラシアン損失(Laplacian loss)と特徴損失(feature loss)の両方を用いる。前者は高い数値的性能を達成するのに対し、後者はより人間の知覚に適した結果をもたらす。また、ネットワークの汎化性能を大幅に向上させる複数のデータ拡張戦略についても報告する。定性的および定量的な実験の結果から、本手法が単一の自然画像に対して高品質なマッティングを実現できることを示した。推論用のコードおよび学習済みモデルは、https://github.com/hqqxyy/Context-Aware-Matting にて公開されている。