MODNet: Echtzeit-Trimap-freies Porträtmattieren durch objektbasierte Zerlegung

Bestehende Portrait-Matting-Methoden erfordern entweder teure Hilfseingaben oder umfassen mehrere Rechenaufwandsintensive Stufen, was sie für Echtzeit-Anwendungen weniger geeignet macht. In dieser Arbeit stellen wir ein leichtgewichtiges Matting-Zielzerlegungsnetzwerk (MODNet) vor, das Portrait-Matting mit einer einzigen Eingabebild in Echtzeit ermöglicht. Das zentrale Konzept unserer effizienten Designstrategie besteht darin, eine Reihe von Teilzielen durch explizite Nebenbedingungen gleichzeitig zu optimieren. Darüber hinaus enthält MODNet zwei neuartige Techniken zur Verbesserung der Modell-Effizienz und -Robustheit. Erstens wird ein Effizientes Atrous Spatial Pyramid Pooling (e-ASPP)-Modul eingeführt, um mehrskalige Merkmale für die semantische Schätzung zu fusionieren. Zweitens wird eine selbstüberwachte Konsistenzstrategie für Teilziele (SOC) vorgeschlagen, um MODNet an reale Daten anzupassen und das Domänenverschiebungsproblem zu lösen, das für trimap-freie Methoden typisch ist. MODNet kann auf einfache Weise end-to-end trainiert werden. Es ist viel schneller als zeitgleich verfügbare Methoden und erreicht eine Geschwindigkeit von 67 Bildern pro Sekunde auf einem 1080Ti-GPU. Experimente zeigen, dass MODNet bei weitem die bisherigen trimap-freien Methoden sowohl im Adobe Matting Datensatz als auch im von uns entwickelten fotografischen Portrait-Matting-Benchmark (PPM-100) übertrifft. Des Weiteren erzielt MODNet bemerkenswerte Ergebnisse bei alltäglichen Fotos und Videos. Unser Code und unsere Modelle sind unter https://github.com/ZHKKKe/MODNet verfügbar, und der PPM-100-Benchmark wurde unter https://github.com/ZHKKKe/PPM veröffentlicht.