HyperAI
vor 10 Tagen

VIRES: Video-Instanz-Neuzeichnen durch skizzen- und textgesteuerte Generierung

Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, Boxin Shi
VIRES: Video-Instanz-Neuzeichnen durch skizzen- und textgesteuerte Generierung
Abstract

Wir stellen VIRES vor, eine Methode zur Video-Instanz-Neuanmalung mit Skizzen- und Textführung, die es ermöglicht, Video-Instanzen neu anzumalen, zu ersetzen, zu generieren und zu entfernen. Bestehende Ansätze haben Schwierigkeiten mit der zeitlichen Konsistenz und der genauen Anpassung an die bereitgestellte Skizzenfolge. VIRES nutzt die generativen Vorwissen von Text-zu-Video-Modellen, um die zeitliche Konsistenz aufrechtzuerhalten und visuell ansprechende Ergebnisse zu erzielen. Wir schlagen das sequenzielle ControlNet mit standardisierter Selbstskalierung vor, das Strukturlayouts effektiv extrahiert und hochkontrastige Skizzendetails adaptiv erfassen kann. Des Weiteren ergänzen wir den Diffusionstransformer-Kern durch die Skizzenaufmerksamkeit, um feingranuläre Skizzensemantik zu interpretieren und einzubringen. Ein skizzenbewusster Encoder stellt sicher, dass die neugemalten Ergebnisse mit der bereitgestellten Skizzenfolge übereinstimmen. Zudem tragen wir VireSet bei, einem Datensatz mit detaillierten Annotationen, der speziell für das Training und die Bewertung von Video-Instanz-Bearbeitungsverfahren angepasst ist. Experimentelle Ergebnisse zeigen die Effektivität von VIRES, das in Bezug auf visuelle Qualität, zeitliche Konsistenz, Bedingungsanpassung und menschliche Bewertungen den aktuellen Stand der Technik übertrifft.