Wan2.2 : Un Modèle De Génération Vidéo À Grande Échelle Et De Haut Niveau Open Source
1. Introduction au tutoriel

Wan-2.2 est un modèle avancé de génération vidéo basé sur l'IA, open source par le laboratoire Tongyi Wanxiang d'Alibaba le 28 juillet 2025. Trois modèles, à savoir la vidéo générée par texte (Wan2.2-T2V-A14B), la vidéo générée par image (Wan2.2-I2V-A14B) et la génération vidéo unifiée (Wan2.2-IT2V-5B), sont open source, avec un total de 27 milliards de paramètres. Ce modèle a introduit pour la première fois l'architecture de mélange d'experts (MoE), améliorant ainsi la qualité de génération et l'efficacité de calcul. Parallèlement, il a innové en proposant un système de contrôle esthétique de niveau film capable de contrôler avec précision les effets esthétiques tels que la lumière, les ombres, la couleur et la composition. Le modèle de génération vidéo compact à 5 milliards de paramètres utilisé dans le tutoriel prend en charge les vidéos générées par texte et image, fonctionne sur des cartes graphiques grand public et repose sur une architecture VAE 3D performante pour atteindre des taux de compression élevés et générer rapidement des vidéos haute définition. Les résultats pertinents de l'article sont «Wan : modèles génératifs vidéo à grande échelle ouverts et avancés".
Ce tutoriel utilise un seul GPU RTX A6000 comme ressource de calcul et déploie le modèle Wan2.2-IT2V-5B. Deux exemples, la génération de texte en vidéo et la génération d'image en vidéo, sont fournis à des fins de test.
2. Affichage des effets
Vidéo de génération de texte

Vidéo générée par l'image

3. Étapes de l'opération
1. Démarrez le conteneur

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.
1. Génération de texte en vidéo
Paramètres spécifiques :
- Invite : le texte décrivant le contenu vidéo que vous souhaitez générer.
- Durée : Spécifiez la durée de la vidéo souhaitée (en secondes).
- Résolution de sortie : sélectionnez la résolution (largeur x hauteur) de la vidéo générée.
- Étapes d'échantillonnage : contrôle le nombre d'optimisations itératives lors de la génération de la vidéo (le nombre d'étapes de débruitage pour le modèle de diffusion).
- Échelle de guidage : contrôle la manière dont le modèle suit les mots d'invite de l'utilisateur.
- Décalage d'échantillon : lié à l'échantillonneur utilisé, utilisé pour ajuster les paramètres du processus d'échantillonnage.
- Seed : Contrôle le caractère aléatoire du processus de génération.

2. Génération d'image en vidéo

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
journal = {arXiv preprint arXiv:2503.20314},
year={2025}
}