
要約
従来の深層学習に基づくマッティング手法は、アルファマットの全体的な構造を向上させるために主に高レベルの意味特徴に依存している。しかしながら、本研究では、CNNから抽出された高度な意味情報がアルファマットの認識に対して均等に寄与するわけではないと主張し、高レベルの意味情報を低レベルの外観特徴と統合することで、前景の詳細をより精緻に再現すべきであると考える。本論文では、追加の入力なしに単一のRGB画像からより優れたアルファマット構造を予測可能な、エンドツーエンド型の階層的アテンションマッティングネットワーク(HAttMatting)を提案する。具体的には、空間的およびチャネルワイズなアテンションを用いて、外観特徴とピラミッド型特徴を新規な手法で統合する。この統合アテンション機構により、洗練された境界と適応的な意味情報を捉えることで、アルファマットの精度を向上させることができる。さらに、構造的類似度(SSIM)、平均二乗誤差(MSE)、および敵対的損失を統合したハイブリッド損失関数を導入し、ネットワークが前景の全体的な構造をさらに改善するように導く。また、59,600枚の学習画像と1,000枚のテスト画像(合計646種類の異なる前景アルファマット)を含む大規模な画像マッティングデータセットを構築し、階層的構造集約モデルのロバスト性をさらに向上させた。広範な実験により、提案手法HAttMattingが単一のRGB画像を入力として用いる場合でも、複雑な前景構造を正確に捉え、最先端の性能を達成することが示された。