vor 17 Tagen

Verbindung von Komposit und Real: Hin zum end-to-end Deep Image Matting

Jizhizi Li, Jing Zhang, Stephen J. Maybank, Dacheng Tao

Abstract

Die präzise Extraktion von Vordergrundobjekten aus natürlichen Bildern ist von großem Nutzen für zahlreiche nachgeschaltete Anwendungen wie Filmproduktion und erweiterte Realität. Allerdings stellen die behaarten Merkmale und die vielfältigen Erscheinungsformen von Vordergrundobjekten – beispielsweise Tiere oder Porträts – eine große Herausforderung für bestehende Matting-Methoden dar, die typischerweise zusätzliche Benutzereingaben wie Trimaps oder Skizzen erfordern. Um diese Probleme zu lösen, untersuchen wir die unterschiedlichen Rolle von Semantik und Feinheiten im Bild-Matting und zerlegen die Aufgabe in zwei parallele Teilprobleme: hochwertige semantische Segmentierung und tiefgehende Detail-Matting. Konkret schlagen wir ein neuartiges Glance and Focus Matting-Netzwerk (GFM) vor, das einen gemeinsamen Encoder und zwei getrennte Decoder verwendet, um beide Aufgaben kooperativ und end-to-end für das Matting natürlicher Bilder zu lernen. Zudem berücksichtigen wir die Einschränkung der verfügbaren natürlichen Bilder im Matting-Zusammenhang: Bisherige Methoden verwenden typischerweise zusammengesetzte Bilder für das Training und die Evaluation, was zu einer begrenzten Generalisierungsfähigkeit auf echte Weltbilder führt. In dieser Arbeit untersuchen wir systematisch das Domänen-Discrepanz-Problem zwischen zusammengesetzten und echten Weltbildern durch umfassende Analysen der verschiedenen Unterschiede zwischen Vordergrund- und Hintergrundbildern. Wir stellen fest, dass ein sorgfältig entworfener Zusammensetzungsansatz, der RSSN genannt wird und darauf abzielt, diese Diskrepanzen zu verringern, zu einem Modell mit herausragender Generalisierungsfähigkeit führen kann. Darüber hinaus stellen wir eine Benchmark bereit, die aus 2.000 hochauflösenden realen Tierbildern und 10.000 Porträtbildern besteht, jeweils mit manuell ermittelten Alpha-Matten versehen, um eine Testumgebung für die Bewertung der Generalisierungsfähigkeit von Matting-Modellen auf realen Bildern zu schaffen. Umfassende empirische Studien belegen, dass GFM die derzeit besten Methoden übertrifft und den Generalisierungsfehler effektiv reduziert. Der Quellcode und die Datensätze werden unter https://github.com/JizhiziLi/GFM veröffentlicht.