HyperAI

Wan2.2: Ein Open-Source-Modell Zur Hochrangigen Videogenerierung Im Großen Maßstab

1. Einführung in das Tutorial

Bauen

Wan-2.2 ist ein fortschrittliches KI-Videogenerierungsmodell, das am 28. Juli 2025 von Alibabas Tongyi Wanxiang Laboratory als Open Source veröffentlicht wurde. Insgesamt drei Modelle, nämlich textgeneriertes Video (Wan2.2-T2V-A14B), bildgeneriertes Video (Wan2.2-I2V-A14B) und einheitliche Videogenerierung (Wan2.2-IT2V-5B), sind Open Source und verfügen über insgesamt 27 Milliarden Parameter. Das Modell führte erstmals die Mixture-of-Experts-Architektur (MoE) ein, wodurch die Generierungsqualität und Rechenleistung effektiv verbessert wurden. Gleichzeitig war es Vorreiter eines ästhetischen Steuerungssystems auf Filmebene, das ästhetische Effekte wie Licht, Schatten, Farbe und Komposition präzise steuern kann. Das im Tutorial verwendete kompakte 5B-Parameter-Videogenerierungsmodell unterstützt Text- und Bildgenerierungsvideos, ist auf handelsüblichen Grafikkarten lauffähig und basiert auf einer effizienten 3D-VAE-Architektur, um hohe Komprimierungsraten und die Fähigkeit zur schnellen Generierung hochauflösender Videos zu erreichen. Die relevanten Papierergebnisse sind „Wan: Offene und erweiterte großformatige Videogenerierungsmodelle".

Dieses Tutorial verwendet eine einzelne RTX A6000 GPU als Rechenressource und setzt das Modell Wan2.2-IT2V-5B ein. Zwei Beispiele, Text-zu-Video-Generierung und Bild-zu-Video-Generierung, stehen zum Testen zur Verfügung.

2. Effektanzeige

Video zur Textgenerierung

Bildgeneriertes Video

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

1. Text-zu-Video-Generierung

Spezifische Parameter:

  • Eingabeaufforderung: Der Text, der den Videoinhalt beschreibt, den Sie generieren möchten.
  • Dauer: Geben Sie die gewünschte Videodauer (in Sekunden) an.
  • Ausgabeauflösung: Wählen Sie die Auflösung (Breite x Höhe) des generierten Videos.
  • Sampling-Schritte: Steuert die Anzahl der iterativen Optimierungen während der Videogenerierung (die Anzahl der Rauschunterdrückungsschritte für das Diffusionsmodell).
  • Anleitungsskala: Steuert, wie gut das Modell den Eingabeaufforderungen des Benutzers folgt.
  • Sample Shift: Bezieht sich auf den verwendeten Sampler und dient zum Anpassen der Parameter des Sampling-Prozesses.
  • Seed: Steuert die Zufälligkeit des Generierungsprozesses.

2. Bild-zu-Video-Generierung

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}