
要約
人間マッティングは、自然画像から高品質に人間を抽出する技術であり、多様な応用分野において重要な役割を果たしています。マッティング問題は極めて制約が不足しているため、これまでの多くの手法ではユーザ指定のトリマップやスケッチを制約として利用するためにユーザの操作が必要でした。このユーザ参加型の性質により、大規模データや時間的な制約がある状況での適用が困難となっています。本論文では、明示的なユーザ入力制約を使用せず、データから学習した暗黙的な意味論的制約を用いて自動人間マッティングアルゴリズム(SHM)を提案します。SHMは、深層ネットワークを使用して意味情報と高品質な詳細を同時に適合させる初めてのアルゴリズムです。実際には、粗い意味論的情報と細かい詳細を同時に学習することは難題です。そこで我々は新しい融合戦略を提案し、これによりαマットの確率的推定が自然に行えるようになりました。また、35,513件のユニークな前景画像で構成される高品質なアノテーションを持つ非常に大きなデータセットを作成し、人間マッティングの学習と評価を支援しています。このデータセットおよび多数の実際の画像に対する広範な実験結果から、SHMが最先端の対話型マッティング手法と同等の結果を得ることが示されました。