HyperAIHyperAI

Wan2.2-S2V-14B: Audiogesteuerte Videogenerierung in Filmqualität

1. Einführung in das Tutorial

Bauen

Wan2.2-S2V-14B ist ein audiogesteuertes Videogenerierungsmodell, das im August 2025 vom Alibaba Tongyi Wanxiang-Team als Open Source veröffentlicht wurde. Wan2.2-S2V-14B benötigt lediglich ein Standbild und einen Audioclip, um digitale Menschenvideos in Kinoqualität mit einer Videodauer von bis zu mehreren Minuten zu generieren und unterstützt verschiedene Bildtypen und Frames. Benutzer können den Videobildschirm durch Eingabe von Textanweisungen steuern, um das Bild detailreicher zu gestalten. Das Modell integriert mehrere innovative Technologien zur audiogesteuerten Videogenerierung komplexer Szenen und unterstützt die Generierung langer Videos sowie Training und Inferenz in mehreren Auflösungen. Das Modell findet breite Anwendung in digitalen Live-Übertragungen, der Film- und Fernsehproduktion, der KI-Bildung und anderen Bereichen. Die relevanten Ergebnisse der Studie sind:Wan-S2V: Audiogesteuerte filmische Videogenerierung".

Die in diesem Tutorial verwendeten Rechenressourcen sind eine einzelne RTX A6000-Karte.

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Hinweis: Je mehr Inferenzschritte, desto besser der erzeugte Effekt, desto länger dauert aber auch die Inferenzgenerierung. Bitte legen Sie die Inferenzschritte sinnvoll fest (Beispiel 1: Bei 10 Inferenzschritten dauert die Generierung eines Videos etwa 15 Minuten).

Spezifische Parameter:

  • Auflösung (H*B): Auflösung.
  • Die Anzahl der Frames pro Segment: Gibt die Anzahl der aufeinanderfolgenden Frames an, die bei jeder Videogenerierung verarbeitet oder generiert werden sollen.
  • Führungskoeffizient: steuert, wie stark der Generierungsprozess der Eingabeaufforderung oder den Bedingungen (z. B. Text, Referenzbild) folgt.
  • Anzahl der abgetasteten Schritte: Gibt die Anzahl der Iterationen an, die beim Generieren des Diffusionsmodells verwendet werden. Diffusionsmodelle beginnen normalerweise mit reinem Rauschen und durchlaufen mehrere Entrauschungsschritte, um das Endergebnis zu erhalten.
  • Rauschverschiebung: Wird verwendet, um die Eigenschaften des Rauschens während des Diffusionsprozesses anzupassen, beispielsweise durch Ändern der Verteilung oder Intensität des Rauschens.
  • Zufallsstartwert (-1 Zufall): Steuert den Anfangszustand des Zufallszahlengenerators.
  • Referenzbild als erstes Bild verwenden: Eine boolesche Option. Wenn diese Option aktiviert ist, wird das vom Benutzer bereitgestellte Referenzbild als Startbild (erstes Bild) des generierten Videos verwendet.
  • Modell-Offloading zur Einsparung von Videospeicher (langsamer): Modell-Offloading zur Einsparung von Videospeicher (langsamer).

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}
Wan2.2-S2V-14B: Audiogesteuerte Videogenerierung in Filmqualität | Tutorials | HyperAI