17日前

デュアルコンテキスト集約によるユニバーサル画像マッティング

Qinglin Liu, Xiaoqian Lv, Wei Yu, Changyong Guo, Shengping Zhang
デュアルコンテキスト集約によるユニバーサル画像マッティング
要約

自然画像マッティングは、与えられた画像から前景のアルファマットを推定することを目的としている。この問題に対処するため、クリックやトリマップなどのガイド情報を用いるインタラクティブマッティング手法や、特定の物体に特化した自動マッティング手法など、さまざまなアプローチが検討されてきた。しかし、既存のマッティング手法は特定の物体やガイドに特化して設計されており、画像マッティングにおいて普遍的に求められるグローバルな文脈とローカルな特徴の統合という共通的な要件を無視している。その結果、前景の正確な同定や精密な境界生成において困難に直面し、予期しないシナリオにおける有効性が制限されることが多かった。本論文では、任意のガイド情報に対応可能またはガイドなしでも堅牢に動作する、シンプルかつ汎用的なマッティングフレームワーク「Dual-Context Aggregation Matting(DCAM)」を提案する。具体的には、DCAMはまず入力画像とガイド情報から低レベル特徴および文脈特徴を抽出するための意味的バックボーンネットワークを採用する。次に、グローバルオブジェクトアグリゲータとローカル外観アグリゲータを組み込んだ二重文脈統合ネットワークを導入し、抽出された文脈特徴を反復的に精緻化する。このプロセスにより、グローバルな輪郭セグメンテーションとローカルな境界の微調整を同時に行うことで、多様なガイド情報および物体に対して高いロバスト性を発揮する。最後に、マッティングデコーダーネットワークを用いて低レベル特徴と精緻化された文脈特徴を統合し、アルファマットを推定する。5つのマッティングデータセットにおける実験結果から、DCAMは自動マッティングおよびインタラクティブマッティングの両タスクにおいて、最先端の手法を上回る性能を示した。これは、DCAMの高い汎用性と優れた性能を示している。ソースコードは以下のURLで公開されている:\url{https://github.com/Windaway/DCAM}。