Ein spätes Fusions-CNN für digitales Matting

Diese Arbeit untersucht die Architektur eines tiefen konvolutionellen neuronalen Netzwerks, um die Vordergrund-Alpha-Matte aus einem einzigen RGB-Bild vorherzusagen. Unser Netzwerk ist vollständig konvolutionell und verfügt über zwei Dekodierzweige, die jeweils für die Klassifikation von Vordergrund und Hintergrund zuständig sind. Anschließend wird ein Fusionszweig eingesetzt, um die beiden Klassifikationsresultate zu kombinieren, wodurch Alpha-Werte als weiche Segmentierungsergebnisse entstehen. Diese Architektur bietet dem Netzwerk während des Trainings mehr Freiheitsgrade im Vergleich zu einem einzigen Dekodierzweig, was zu qualitativ besseren Alpha-Werten führt. Das Netzwerk kann Trimaps implizit ohne Benutzerinteraktion erzeugen, was es für Anfänger ohne Fachkenntnisse im Bereich digitales Matting besonders benutzerfreundlich macht. Experimentelle Ergebnisse zeigen, dass unser Netzwerk hochwertige Alpha-Mattes für eine Vielzahl von Objekten erzeugen kann und die Leistungsfähigkeit der derzeit besten CNN-basierten Methoden für die Bildmatting-Aufgabe bei menschlichen Bildern übertrifft.