Steigerung der semantischen menschlichen Matting mit groben Annotationen

Semantische menschliche Matting zielt darauf ab, die pro-Pixel-Opazität der Vordergrundmenschenregionen zu schätzen. Dies ist eine äußerst herausfordernde Aufgabe, die in der Regel interaktive Trimaps durch den Benutzer sowie eine große Menge hochwertig annotierter Daten erfordert. Die Annotation solcher Daten ist arbeitsintensiv und erfordert Fachkenntnisse, die über das Niveau normaler Nutzer hinausgehen, insbesondere wenn es um die sehr feinen Haarpartien menschlicher Figuren geht. Im Gegensatz dazu sind grob annotierte menschliche Datensätze weitaus einfacher zu beschaffen und können problemlos aus öffentlichen Datensätzen gewonnen werden. In diesem Paper schlagen wir vor, grob annotierte Daten in Kombination mit fein annotierten Daten zu nutzen, um eine end-to-end semantische menschliche Matting-Methode ohne zusätzliche Trimaps zu verbessern. Konkret trainieren wir ein Maskenvorhersagenetzwerk, um mithilfe der hybriden Daten eine grobe semantische Maske zu schätzen, und schlagen anschließend ein Qualitätsvereinigungsnetzwerk vor, das die Qualität der vorherigen groben Masken-Ausgaben standardisiert. Ein Nachbearbeitungsnetzwerk nimmt die vereinigte Maske und das Eingabebild auf, um die endgültige Alpha-Matte vorherzusagen. Der gesammelte grob annotierte Datensatz bereichert unsere Datensammlung erheblich und ermöglicht die Erzeugung hochwertiger Alpha-Matten für reale Bilder. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode mit den besten aktuellen Methoden vergleichbare Leistung erzielt. Darüber hinaus kann die vorgeschlagene Methode zur Nachbearbeitung grob annotierter öffentlicher Datensätze sowie zur Verbesserung semantischer Segmentierungsmethoden eingesetzt werden, wodurch die Kosten für die Annotation hochwertiger menschlicher Daten erheblich reduziert werden.