
要約
自動画像マッティング(Automatic Image Matting; AIM)とは、トリマップなどの補助入力なしに任意の自然画像からソフトな前景を推定する技術であり、画像編集において有用である。従来の手法は、人間や動物など明確な不透明な前景を持つ画像に限定されつつ、マッティングプロセスを支援するための意味特徴を学習しようとしてきた。本論文では、このような手法を、明確な透明/繊細な前景や非明確な前景を有する自然画像に拡張する際の課題に着目する。この問題に対処するため、上記の画像タイプに対して一般化されたトリマップを一貫した意味表現として予測可能な、新たなエンドツーエンドマッティングネットワークを提案する。同時に、学習された意味特徴がアテンション機構を通じてマッティングネットワークが遷移領域に注目できるように導く。さらに、すべてのタイプをカバーする500枚の多様な自然画像と手動でラベル付けされたアルファマットを含むテストセット「AIM-500」を構築し、AIMモデルの汎化能力を評価可能なベンチマークを実現した。実験結果から、既存の合成マッティングデータセット上で学習した本ネットワークが、客観的・主観的に従来手法を上回ることを示した。ソースコードおよびデータセットは、https://github.com/JizhiziLi/AIM にて公開されている。