粗いアノテーションを用いた意味的ヒューマンマッティングの向上

セマンティック人間マッティングは、前景の人間領域のピクセル単位の透明度(オパシティ)を推定することを目的としている。このタスクは非常に困難であり、通常、ユーザーのインタラクティブなトリマップ(trimap)と高品質なアノテーションデータの大量が必要となる。このようなデータのアノテーションは人的労力が大きく、特に人間の髪の毛のような細部に至るまで正確にラベルを付けるため、一般ユーザー以上の専門的なスキルを要する。これに対して、粗いアノテーション(coarse annotated)を持つ人間データセットは、公開データセットから比較的容易に取得・収集可能である。本論文では、トリマップを外部入力として用いずに、粗いアノテーションデータと細かいアノテーションデータを組み合わせることで、エンドツーエンドのセマンティック人間マッティング性能を向上させる手法を提案する。具体的には、ハイブリッドデータを用いて粗いセマンティックマスクを推定するマスク予測ネットワークを学習し、その後、得られた粗いマスク出力の品質を統一するための品質統一ネットワーク(quality unification network)を提案する。さらに、統一されたマスクと入力画像を入力として受け取り、最終的なアルファマット(alpha matte)を予測するマッティング精緻化ネットワーク(matting refinement network)を設計した。収集した粗いアノテーションデータセットは、我々のデータセットを大幅に豊かにし、実画像に対しても高品質なアルファマットの生成を可能にした。実験結果から、提案手法は最先端の手法と同等の性能を発揮することが示された。さらに、本手法は、粗いアノテーションを持つ公開データセットの品質向上や、セマンティックセグメンテーション手法の精緻化にも応用可能であり、高品質な人間データのアノテーションコストを大幅に削減できる。