HyperAIHyperAI

Command Palette

Search for a command to run...

VIRES: Skizzen- Und Text-geführtes Video-Neuzeichnen

Date

vor 7 Monaten

Size

48.17 MB

License

Apache 2.0

Paper URL

2411.16199

1. Einführung in das Tutorial

Bauen

VIRES ist eine Methode zum Neuzeichnen von Videoinstanzen, die Skizzen und Textführung kombiniert. Sie wurde 2025 gemeinsam vom Camera Intelligence Laboratory der Peking-Universität (Team Shi Baixin) in Zusammenarbeit mit OpenBayes Bayesian Computing und dem Team von Associate Professor Li Si vom Pattern Recognition Laboratory der School of Artificial Intelligence der Beijing University of Posts and Telecommunications vorgeschlagen. Sie unterstützt verschiedene Bearbeitungsvorgänge wie das Neuzeichnen, Ersetzen, Generieren und Entfernen von Videoobjekten. Die Methode nutzt das Vorwissen des textgenerierten Videomodells, um die zeitliche Konsistenz zu gewährleisten. Sie schlägt außerdem ein Sequential ControlNet mit einem standardisierten adaptiven Skalierungsmechanismus vor, der Strukturlayouts effektiv extrahieren und kontrastreiche Skizzendetails adaptiv erfassen kann. Darüber hinaus führte das Forschungsteam einen Sketch-Attention-Mechanismus im DiT-Backbone (Diffusion Transformer) ein, um feinkörnige Skizzensemantik zu interpretieren und einzufügen. Experimentelle Ergebnisse zeigen, dass VIRES bestehende SOTA-Modelle in vielen Aspekten wie Videoqualität, zeitlicher Konsistenz, bedingter Ausrichtung und Nutzerbewertungen übertrifft.

Verwandte Forschung VIRES: Neuzeichnen von Videoinstanzen durch skizzen- und textgeführte Generierung Das Thema wurde für die CVPR 2025 ausgewählt.

Dieses Tutorial verwendet Ressourcen für eine einzelne Karte A6000.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen 

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung 

Parameterbeschreibung:

  • CFG-Leitskala: Bedingungslose Führungsstärke.
  • Anzahl der Abtastschritte: Anzahl der Abtastschritte.
  • Startframe: Bearbeiten Sie den Startframe.

Zitationsinformationen

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp