Selbsterzwingende Echtzeit-Videogenerierung
1. Einführung in das Tutorial

Self-Forcing wurde am 9. Juni 2025 vom Xun Huang-Team vorgeschlagen. Es ist ein neues Trainingsparadigma für autoregressive Videodiffusionsmodelle. Es löst das seit langem bestehende Problem des Belichtungsbias, bei dem im realen Kontext trainierte Modelle während der Inferenz Sequenzen basierend auf ihren eigenen unvollkommenen Ausgaben generieren müssen. Anders als frühere Methoden, die zukünftige Frames basierend auf Frames des realen Kontexts entrauschen, konditioniert Self-Forcing die Generierung jedes Frames auf der zuvor selbst generierten Ausgabe, indem während des Trainings ein autoregressiver Rollout mit einem Schlüsselwert-Cache (KV) durchgeführt wird. Diese Strategie erreicht eine Überwachung durch eine ganzheitliche Verlustfunktion auf Videoebene, die die Qualität der gesamten generierten Sequenz direkt bewertet, anstatt sich ausschließlich auf traditionelle Zielfunktionen für jedes Frame zu verlassen. Um eine effiziente Trainingseffizienz zu gewährleisten, werden ein Diffusionsmodell mit wenigen Schritten und eine Strategie zur stochastischen Gradientenkürzung angewendet, wodurch Rechenaufwand und Leistung effektiv ins Gleichgewicht gebracht werden. Zusätzlich wird ein Mechanismus für einen rollierenden Schlüsselwert-Cache eingeführt, um eine effiziente autoregressive Videoextrapolation zu erreichen. Umfangreiche Experimente zeigen, dass ihre Methode die Echtzeit-Streaming-Videogenerierung mit einer Latenz von unter einer Sekunde auf einer einzelnen GPU ermöglicht und dabei die Generierungsqualität deutlich langsamerer und nicht-kausaler Diffusionsmodelle erreicht oder sogar übertrifft. Die relevanten Ergebnisse der Studie lauten:Selbsterzwingung: Überbrückung der Train-Test-Lücke bei der autoregressiven Videodiffusion".
Dieses Tutorial verwendet Ressourcen für eine einzelne RTX 4090-Karte.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte

Parameterbeschreibung
- Erweiterte Einstellungen:
- Seed: Zufälliger Seed-Wert, der die Zufälligkeit des Generierungsprozesses steuert. Ein fester Seed kann dieselben Ergebnisse reproduzieren; -1 steht für einen zufälligen Seed.
- Ziel-FPS: Zielbildrate. Der Standardwert ist hier 6, was bedeutet, dass das generierte Video 6 Bilder pro Sekunde hat.
- torch.compile: Aktivieren Sie die PyTorch-Kompilierungsoptimierung, um die Modellinferenz zu beschleunigen (Umgebungsunterstützung erforderlich).
- FP8-Quantisierung: Aktiviert die 8-Bit-Gleitkommaquantisierung und reduziert die Rechenpräzision, um die Generierungsgeschwindigkeit zu erhöhen (kann die Qualität leicht beeinträchtigen).
- TAEHV VAE: Gibt den Typ des verwendeten Variational Autoencoder (VAE)-Modells an, der sich auf die generierten Details oder den Stil auswirken kann.
4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@article{huang2025selfforcing,
title={Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion},
author={Huang, Xun and Li, Zhengqi and He, Guande and Zhou, Mingyuan and Shechtman, Eli},
journal={arXiv preprint arXiv:2506.08009},
year={2025}
}