自然画像マッティングのためのTrimapガイド付き特徴マイニングおよび統合ネットワーク

トリマップを用いたピクセル単位のマッティングにおいて、トリマップのガイドランスを有効に活用することと、マルチレベル特徴の融合は、2つの重要な課題である。既存の多くの手法では、トリマップと画像を単純に連結して深層ネットワークに投入するか、追加のネットワークを用いてより強力なトリマップガイドランスを抽出するというアプローチを採用しているが、これにより効率性と有効性の間にトレードオフが生じる問題がある。一方、近年注目されているコンテンツベースの特徴融合においては、多くの既存手法が局所的な特徴にのみ注目しており、興味対象オブジェクトに関連する強力な意味的情報を備えたグローバル特徴によるガイドランスが欠如している。本論文では、我々が提案する「トリマップガイド付き特徴マイニング・融合ネットワーク(TMFNet)」を構成する、トリマップガイド付き非背景マルチスケールプーリング(TMP)モジュールと、グローバル・ローカルコンテキスト認識型融合(GLF)モジュールを導入する。トリマップが強力な意味的ガイドランスを提供する点に着目し、TMPモジュールは追加パラメータを用いずに、トリマップのガイドのもとで興味対象オブジェクトに焦点を当てた効果的な特徴マイニングを実現する。さらに、TMPモジュールによって抽出された興味対象オブジェクトのグローバル意味情報を活用し、GLFモジュールは効果的なグローバル・ローカルコンテキスト認識型のマルチレベル特徴融合を実現する。また、高品質な画像マッティングの進展を図るため、共通の興味対象オブジェクトマッティング(CIOM)データセットを構築した。特に、Composition-1kおよび我々のCIOMデータセットにおける実験結果から、強力なベースラインに対して、パラメータ数を減らしつつ14%のFLOPs削減を実現しつつ、SAD指標でそれぞれ13%および25%の相対的な性能向上を達成した。Composition-1kテストセット、Alphamattingベンチマーク、およびCIOMテストセットにおける実験結果から、本手法が最先端のアプローチを上回ることを示した。本研究のコードおよびモデルは、https://github.com/Serge-weihao/TMF-Matting にて公開されている。