VIRES: Skizzen- Und Text-geführtes Video-Neuzeichnen
1. Einführung in das Tutorial

VIRES ist eine Methode zum Neuzeichnen von Videoinstanzen, die Skizzen und Textführung kombiniert. Sie wurde 2025 gemeinsam vom Camera Intelligence Laboratory der Peking-Universität (Team Shi Baixin) in Zusammenarbeit mit OpenBayes Bayesian Computing und dem Team von Associate Professor Li Si vom Pattern Recognition Laboratory der School of Artificial Intelligence der Beijing University of Posts and Telecommunications vorgeschlagen. Sie unterstützt verschiedene Bearbeitungsvorgänge wie das Neuzeichnen, Ersetzen, Generieren und Entfernen von Videoobjekten. Die Methode nutzt das Vorwissen des textgenerierten Videomodells, um die zeitliche Konsistenz zu gewährleisten. Sie schlägt außerdem ein Sequential ControlNet mit einem standardisierten adaptiven Skalierungsmechanismus vor, der Strukturlayouts effektiv extrahieren und kontrastreiche Skizzendetails adaptiv erfassen kann. Darüber hinaus führte das Forschungsteam einen Sketch-Attention-Mechanismus im DiT-Backbone (Diffusion Transformer) ein, um feinkörnige Skizzensemantik zu interpretieren und einzufügen. Experimentelle Ergebnisse zeigen, dass VIRES bestehende SOTA-Modelle in vielen Aspekten wie Videoqualität, zeitlicher Konsistenz, bedingter Ausrichtung und Nutzerbewertungen übertrifft.
Die damit verbundene Forschung basiert aufVIRES: Neuzeichnen von Videoinstanzen durch skizzen- und textgeführte Generierung", wurde für CVPR 2025 ausgewählt.
Dieses Tutorial verwendet Ressourcen für eine einzelne Karte A6000.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.
Anwendung

Parameterbeschreibung:
- CFG-Leitskala: Bedingungslose Führungsstärke.
- Anzahl der Abtastschritte: Anzahl der Abtastschritte.
- Startframe: Bearbeiten Sie den Startframe.
Zitationsinformationen
@article{vires,
title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
pages={28416--28425},
year={2025}
}