vor 17 Tagen

Diffusion für die natürliche Bildmatting

Yihan Hu, Yiheng Lin, Wei Wang, Yao Zhao, Yunchao Wei, Humphrey Shi

Abstract

Wir zielen darauf ab, Diffusionsmodelle zur Bewältigung der anspruchsvollen Aufgabe der Bild-Matting zu nutzen. Allerdings stellen die hohe Rechenkosten und die Inkonsistenz der Rauschprobenahme zwischen Trainings- und Inferenzphase erhebliche Hindernisse für die Realisierung dieses Ziels dar. In diesem Artikel präsentieren wir DiffMatte, eine Lösung, die gezielt diese Herausforderungen überwindet. Erstens entkoppelt DiffMatte den Decoder von der komplex verflochtenen Architektur des Matting-Netzwerks und verwendet in den Iterationen des Diffusionsprozesses lediglich einen leichtgewichtigen Decoder. Durch diese Strategie wird das Anwachsen der Rechenkosten bei steigender Anzahl von Proben effektiv gemindert. Zweitens setzen wir eine selbst-alignierte Trainingsstrategie mit gleichmäßigen Zeitschritten ein, um eine konsistente Rauschprobenahme über den gesamten Zeitraum sowohl während des Trainings als auch während der Inferenz sicherzustellen. DiffMatte ist flexibel gestaltet und lässt sich nahtlos in verschiedene moderne Matting-Architekturen integrieren. Umfangreiche experimentelle Ergebnisse zeigen, dass DiffMatte nicht nur den Stand der Technik auf dem Composition-1k-Testset erreicht – wobei die besten bisherigen Methoden in den Metriken SAD und MSE um 5 % bzw. 15 % übertroffen werden –, sondern auch eine stärkere Verallgemeinerungsfähigkeit in anderen Benchmarks demonstriert.