Datum

vor 8 Monaten

Größe

48.17 MB

1. Einführung in das Tutorial

VIRES ist eine Methode zum Neuzeichnen von Videoinstanzen, die Skizzen und Textführung kombiniert. Sie wurde 2025 gemeinsam vom Camera Intelligence Laboratory der Peking-Universität (Team Shi Baixin) in Zusammenarbeit mit OpenBayes Bayesian Computing und dem Team von Associate Professor Li Si vom Pattern Recognition Laboratory der School of Artificial Intelligence der Beijing University of Posts and Telecommunications vorgeschlagen. Sie unterstützt verschiedene Bearbeitungsvorgänge wie das Neuzeichnen, Ersetzen, Generieren und Entfernen von Videoobjekten. Die Methode nutzt das Vorwissen des textgenerierten Videomodells, um die zeitliche Konsistenz zu gewährleisten. Sie schlägt außerdem ein Sequential ControlNet mit einem standardisierten adaptiven Skalierungsmechanismus vor, der Strukturlayouts effektiv extrahieren und kontrastreiche Skizzendetails adaptiv erfassen kann. Darüber hinaus führte das Forschungsteam einen Sketch-Attention-Mechanismus im DiT-Backbone (Diffusion Transformer) ein, um feinkörnige Skizzensemantik zu interpretieren und einzufügen. Experimentelle Ergebnisse zeigen, dass VIRES bestehende SOTA-Modelle in vielen Aspekten wie Videoqualität, zeitlicher Konsistenz, bedingter Ausrichtung und Nutzerbewertungen übertrifft.

Verwandte Forschung VIRES: Neuzeichnen von Videoinstanzen durch skizzen- und textgeführte Generierung Das Thema wurde für die CVPR 2025 ausgewählt.

Dieses Tutorial verwendet Ressourcen für eine einzelne Karte A6000.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

Parameterbeschreibung:

CFG-Leitskala: Bedingungslose Führungsstärke.
Anzahl der Abtastschritte: Anzahl der Abtastschritte.
Startframe: Bearbeiten Sie den Startframe.

Zitationsinformationen

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

vor 3 Monaten

Ovis-Image: Hochwertiges Bildgenerierungsmodell

vor 2 Monaten

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

vor einem Monat

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen

Datum

vor 8 Monaten

Größe

48.17 MB

1. Einführung in das Tutorial

Verwandte Forschung VIRES: Neuzeichnen von Videoinstanzen durch skizzen- und textgeführte Generierung Das Thema wurde für die CVPR 2025 ausgewählt.

Dieses Tutorial verwendet Ressourcen für eine einzelne Karte A6000.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

Parameterbeschreibung:

CFG-Leitskala: Bedingungslose Führungsstärke.
Anzahl der Abtastschritte: Anzahl der Abtastschritte.
Startframe: Bearbeiten Sie den Startframe.

Zitationsinformationen

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

vor 3 Monaten

SAM3: Visuelles Segmentierungsmodell

vor 2 Monaten

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

vor 2 Monaten

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

vor 2 Monaten

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

vor 3 Monaten

Ovis-Image: Hochwertiges Bildgenerierungsmodell

vor 2 Monaten

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

vor einem Monat

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VIRES: Skizzen- Und Text-geführtes Video-Neuzeichnen

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

Zitationsinformationen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VIRES: Skizzen- Und Text-geführtes Video-Neuzeichnen

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

Zitationsinformationen

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Ovis-Image: Hochwertiges Bildgenerierungsmodell

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VIRES: Skizzen- Und Text-geführtes Video-Neuzeichnen

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

Zitationsinformationen

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Ovis-Image: Hochwertiges Bildgenerierungsmodell

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Ovis-Image: Hochwertiges Bildgenerierungsmodell

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Ovis-Image: Hochwertiges Bildgenerierungsmodell

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy