MuseTalk
是一个实时高质量音频驱动的口型同步模型,是由腾讯音乐天琴实验室开发的一款专门用于虚拟人口型生成的模型,能够依据输入的音频来修改未见过的面部图像,使面部动作与音频高度同步,以达到口型与声音匹配的效果。 MuseTalk 可以与输入视频一起应用,例如由 MuseV 生成的视频,作为完整的虚拟人解决方案。它可以在 NVIDIA Tesla V100 上以 30fps+ 的速度进行实时推理。
MuseTalk 的特点包括:
MuseTalk 在口型生成方面表现出色,能够生成准确且画面一致性良好的口型,尤其擅长真人视频生成。它在与其他产品如 EMO 、 AniPortrait 、 Vlogger 以及微软的 VASA-1 等进行比较时,也具有优势。
MuseTalk
在潜在空间中进行训练,其中图像由 freezed VAE 编码。音频由 freezed whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet,其中音频嵌入通过交叉注意与图像嵌入融合。
经测试:生成一段时长为 17 秒的音频文件大概需要 3 分钟;时长为一分钟左右的音频文件生成时间大概需要 6 分钟。
-|MuseTalk
可以根据输入的音频修改脸部和口型,脸部区域的大小最好为 256 x 256 。同时 MuseTalk
还支持修改面部区域中心点建议,这将显着影响生成结果。
-|目前 MuseTalk
支持中文、英文、日文等多种语言的音频输入。
-|最终生成视频时长以音频时长为准。