HyperAIHyperAI
vor 2 Monaten

Referenzbild-Matting

Jizhizi Li; Jing Zhang; Dacheng Tao
Referenzbild-Matting
Abstract

Im Gegensatz zur konventionellen Bildmatting-Methode, die entweder benutzerdefinierte Kritzeleien/Trimap erfordert, um ein spezifisches Vordergrundobjekt zu extrahieren, oder alle Vordergrundobjekte im Bild ununterschiedlich direkt extrahiert, stellen wir in dieser Arbeit eine neue Aufgabe namens Referring Image Matting (RIM) vor. Ziel von RIM ist es, das präzise Alpha-Matte des spezifischen Objekts zu extrahieren, das am besten der gegebenen natürlichsprachlichen Beschreibung entspricht. Dies ermöglicht eine natürlichere und einfachere Anweisung für das Bildmatting. Zunächst erstellen wir einen umfangreichen und anspruchsvollen Datensatz namens RefMatte, indem wir eine umfassende Bildkomposition- und Ausdrucksgenerierungs-Engine entwickeln, die hochwertige Bilder zusammen mit vielfältigen Textattributen auf Basis öffentlicher Datensätze automatisch produziert. RefMatte besteht aus 230 Objektkategorien, 47.500 Bildern, 118.749 Ausdrucks-Region-Entitäten und 474.996 Ausdrücken. Darüber hinaus bauen wir einen realen Testdatensatz mit 100 hochaufgelösten natürlichen Bildern auf und kennzeichnen komplexe Phrasen manuell, um die Generalisierungsfähigkeiten von RIM-Methoden außerhalb ihres Trainingsbereichs zu bewerten. Des Weiteren präsentieren wir eine neuartige Baselinemethode namens CLIPMat für RIM, die einen kontextbasierten Prompt, ein textgesteuertes semantisches Pop-up und einen mehrstufigen Details-Extractor enthält. Umfangreiche Experimente auf RefMatte sowohl in Schlüsselwort- als auch in Ausdruckseinstellungen bestätigen die Überlegenheit von CLIPMat gegenüber repräsentativen Methoden. Wir hoffen, dass diese Arbeit neue Erkenntnisse zum Thema Bildmatting liefert und weitere nachfolgende Studien anregt. Der Datensatz sowie Code und Modelle sind unter https://github.com/JizhiziLi/RIM verfügbar.

Referenzbild-Matting | Neueste Forschungsarbeiten | HyperAI