Wan2.2-S2V-14B:影视级音频驱动视频生成
一、教程简介

Wan2.2-S2V-14B 是由阿里巴巴通义万相团队于 2025 年 8 月开源的一款音频驱动的视频生成模型。 Wan2.2-S2V-14B 仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,支持多种图片类型和画幅。用户通过输入文本提示,可对视频画面进行控制,让画面更丰富。模型融合多种创新技术,实现复杂场景的音频驱动视频生成,支持长视频生成及多分辨率训练与推理。模型在数字人直播、影视制作、 AI 教育等领域有广泛应用。相关论文成果为「Wan-S2V: Audio-Driven Cinematic Video Generation」。
该教程算力资源采用单卡 RTX A6000 。
二、效果展示

三、运行步骤
1. 启动容器

2. 使用步骤
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
注意:推理步数越多,生成的效果越好,同时推理生成时间也会更长,请合理设置推理步数(示例一:推理步骤为 10 时,生成视频大约需要 15 分钟左右)。


具体参数:
- Resolution(H*W):分辨率。
- The number of frames per segment:指定视频生成时,每次处理或生成的连续帧的数量。
- Guidance coefficient:控制生成过程遵循输入提示(Prompt)或条件(如文本、参考图像)的强度。
- Number of steps sampled:指定扩散模型生成过程中的迭代步数。扩散模型通常从纯噪声开始,经过多步去噪得到最终结果。
- Noise shift:用于调整扩散过程中噪声的特性,例如改变噪声的分布或强度。
- Random Seed(-1 Random):控制随机数生成器的初始状态。
- Use the reference image as the first frame:一个布尔选项。如果启用,用户提供的参考图像将作为生成视频的起始帧(第一帧)。
- Model offloading to save video memory(slower):模型卸载以节省视频内存(较慢)。
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
本项目引用信息如下:
@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
journal = {arXiv preprint arXiv:2503.20314},
year={2025}
}