17日前

コンポジットと現実の橋渡し:エンドツーエンドディープイメージマッティングへ向けて

Jizhizi Li, Jing Zhang, Stephen J. Maybank, Dacheng Tao
コンポジットと現実の橋渡し:エンドツーエンドディープイメージマッティングへ向けて
要約

自然画像から正確な前面領域(foreground)を抽出することは、映画制作や拡張現実(AR)などの多くの後続応用において重要である。しかし、動物やポートレートなど、前面領域の毛並みの特性や多様な外観は、従来のマッティング手法にとって大きな課題となっている。これらの手法は通常、トリマップやスクラッチなどの追加のユーザー入力を必要とする。本研究では、画像マッティングにおける意味(セマンティクス)と細部(details)のそれぞれの役割に着目し、タスクを2つの並列なサブタスクに分解するアプローチを提案する。具体的には、高レベルのセマンティックセグメンテーションと低レベルの細部マッティングという2つのタスクを、共有エンコーダと2つの独立したデコーダを用いて協調的に学習する、新たな「Glance and Focus Mattingネットワーク(GFM)」を提案する。さらに、マッティングタスクにおける自然画像の可用性の限界により、従来の手法は通常、合成画像(composite images)を訓練および評価に用いてきたが、これにより実世界画像への汎化能力が制限されていた。本論文では、合成画像と実世界画像の間のドメインギャップ(domain gap)問題を、前面と背景画像間のさまざまな不一致を包括的に分析することで系統的に検討する。その結果、これらの不一致を低減することを目的とした、丁寧に設計された合成ルート「RSSN(Revised Synthetic Strategy Network)」を採用することで、顕著な汎化性能を持つモデルの構築が可能であることを明らかにした。さらに、実世界の動物画像2,000枚とポートレート画像10,000枚を含む高解像度データセットを手動でアルファマット(alpha matte)ラベル付きで提供するベンチマークを構築し、実世界画像におけるマッティングモデルの汎化能力を評価するための基盤を提供する。包括的な実証的研究により、GFMが最先端手法を上回り、汎化誤差を効果的に低減することを実証した。コードおよびデータセットは、https://github.com/JizhiziLi/GFM にて公開される予定である。

コンポジットと現実の橋渡し:エンドツーエンドディープイメージマッティングへ向けて | 最新論文 | HyperAI超神経