
従来の画像マッティングとは異なり、ユーザー定義のスクリブル/トリマップを必要とするか、または画像内のすべての前景オブジェクトを区別なく直接抽出するものであるのに対し、本論文では新しいタスクとして参照画像マッティング(Referring Image Matting: RIM)を導入します。このタスクは、与えられた自然言語記述に最もよく一致する特定のオブジェクトの精緻なアルファマットを抽出することを目指しており、画像マッティングに対するより自然で簡単な指示を可能にします。まず、公開データセットに基づいて包括的な画像合成と表現生成エンジンを設計することで、高品質な画像と多様なテキスト属性を自動的に生成し、大規模かつ挑戦的なデータセットRefMatteを構築しました。RefMatteには230のオブジェクトカテゴリ、47,500枚の画像、118,749個の表現-領域エンティティ、および474,996つの表現が含まれています。さらに、100枚の高解像度自然画像からなる実世界テストセットを構築し、複雑なフレーズを手動で注釈付けして、RIM手法のドメイン外汎化能力を評価しています。また、RIM用の新しいベースライン手法CLIPMatを提案します。これはコンテクスト埋め込みプロンプト、テキスト駆動型セマンティックポップアップ、およびマルチレベル詳細抽出器を含んでいます。RefMatteでのキーワード設定と表現設定における広範な実験により、CLIPMatが代表的な手法よりも優れていることが確認されました。私たちはこの研究が画像マッティングに対する新たな洞察を提供し、さらなる続報研究を促進することを期待しています。データセット、コードおよびモデルはhttps://github.com/JizhiziLi/RIMで利用可能です。