HyperAIHyperAI
vor 16 Tagen

ProPainter: Verbesserung der Propagation und des Transformers für die Video-Inpainting

Shangchen Zhou, Chongyi Li, Kelvin C.K. Chan, Chen Change Loy
ProPainter: Verbesserung der Propagation und des Transformers für die Video-Inpainting
Abstract

Flussbasierte Propagation und spatiotemporaler Transformer sind zwei etablierte Mechanismen im Bereich des Video-Inpainting (VI). Trotz ihrer Wirksamkeit leiden diese Komponenten weiterhin unter bestimmten Einschränkungen, die ihre Leistung beeinträchtigen. Frühere auf Propagation basierende Ansätze werden entweder im Bild- oder im Merkmalsraum getrennt durchgeführt. Die globale Bildpropagation, die von der Lernprozessisolation abgekoppelt ist, kann aufgrund ungenauer optischer Flüsse zu räumlichen Fehlanpassungen führen. Zudem beschränken Speicher- oder Rechenkapazitätsengpässe die zeitliche Reichweite der Merkmalspropagation und des Video-Transformers, wodurch die Exploration von Korrespondenzinformationen aus entfernten Bildern verhindert wird. Um diese Probleme zu lösen, schlagen wir einen verbesserten Ansatz namens ProPainter vor, der eine verfeinerte Propagation und einen effizienten Transformer integriert. Konkret führen wir eine Dual-Domain-Propagation ein, die die Vorteile von Bild- und Merkmalswarping kombiniert und so zuverlässige globale Korrespondenzen nutzt. Darüber hinaus stellen wir einen maskenbasierten, sparsen Video-Transformer vor, der aufgrund der Eliminierung unnötiger und redundanter Tokens eine hohe Effizienz erreicht. Mit diesen Komponenten übertrifft ProPainter bestehende Ansätze deutlich um 1,46 dB im PSNR, wobei eine ansprechende Effizienz beibehalten wird.