HyperAIHyperAI

Command Palette

Search for a command to run...

Wan2.2: Ein Open-Source-Modell Zur Hochrangigen Videogenerierung Im Großen Maßstab

Date

vor 6 Monaten

Size

1001.26 MB

License

Apache 2.0

Paper URL

2503.20314

1. Einführung in das Tutorial

Bauen

Wan-2.2 ist ein fortschrittliches KI-Videogenerierungsmodell, das am 28. Juli 2025 vom Tongyi Wanxiang Lab von Alibaba als Open Source veröffentlicht wurde. Es umfasst drei Open-Source-Modelle: textbasiertes Video (Wan2.2-T2V-A14B), bildbasiertes Video (Wan2.2-I2V-A14B) und einheitliche Videogenerierung (Wan2.2-IT2V-5B) mit insgesamt 27 Milliarden Parametern. Das Modell führt als erstes eine Hybrid-Expert-Architektur (MoE) ein, die die Generierungsqualität und Recheneffizienz deutlich verbessert. Es ist außerdem Vorreiter eines Systems zur ästhetischen Steuerung auf Kinoniveau, das ästhetische Effekte wie Beleuchtung, Farbe und Komposition präzise steuert. Das Tutorial verwendet das kompakte Videogenerierungsmodell mit 5 Milliarden Parametern, das text- und bildbasierte Videogenerierung unterstützt, auf handelsüblichen Grafikkarten läuft und auf einer hocheffizienten 3D-VAE-Architektur basiert. Dadurch werden hohe Komprimierungsraten und eine schnelle Generierung von HD-Videos erreicht. Zugehörige Forschungsarbeiten sind verfügbar. Wan: Offene und erweiterte großformatige Videogenerierungsmodelle .

Dieses Tutorial verwendet eine einzelne RTX A6000 GPU als Rechenressource und setzt das Modell Wan2.2-IT2V-5B ein. Zwei Beispiele, Text-zu-Video-Generierung und Bild-zu-Video-Generierung, stehen zum Testen zur Verfügung.

2. Effektanzeige

Video zur Textgenerierung

Bildgeneriertes Video

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

1. Text-zu-Video-Generierung

Spezifische Parameter:

  • Eingabeaufforderung: Der Text, der den Videoinhalt beschreibt, den Sie generieren möchten.
  • Dauer: Geben Sie die gewünschte Videodauer (in Sekunden) an.
  • Ausgabeauflösung: Wählen Sie die Auflösung (Breite x Höhe) des generierten Videos.
  • Sampling-Schritte: Steuert die Anzahl der iterativen Optimierungen während der Videogenerierung (die Anzahl der Rauschunterdrückungsschritte für das Diffusionsmodell).
  • Anleitungsskala: Steuert, wie gut das Modell den Eingabeaufforderungen des Benutzers folgt.
  • Sample Shift: Bezieht sich auf den verwendeten Sampler und dient zum Anpassen der Parameter des Sampling-Prozesses.
  • Seed: Steuert die Zufälligkeit des Generierungsprozesses.

2. Bild-zu-Video-Generierung

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp