HyperAIHyperAI

Command Palette

Search for a command to run...

控制台
2 天前

Soul:为数字人注入生命力以实现高保真长期多模态动画

Soul:为数字人注入生命力以实现高保真长期多模态动画

摘要

我们提出了一种多模态驱动的高保真长期数字人动画框架——Soul,该框架能够基于单帧人像图像、文本提示和音频,生成语义连贯的视频,实现精准的口型同步、生动的面部表情以及稳定的身份保持。为缓解数据稀缺问题,我们构建了Soul-1M数据集,包含100万条精细标注样本,其自动化标注流程覆盖人像、上半身、全身及多人场景;同时,我们精心设计了Soul-Bench基准,用于对音频与文本引导的动画方法进行全方位、公平的评估。模型基于Wan2.2-5B骨干网络,融合音频注入层与多种训练策略,并引入阈值感知的码本替换机制,以保障长期生成的一致性。此外,通过采用步长与CFG蒸馏技术以及轻量级VAE,显著优化了推理效率,在仅带来可忽略的质量损失的前提下,实现了11.4倍的加速。大量实验表明,Soul在视频质量、视频-文本对齐、身份保持及口型同步准确性等方面,显著优于当前主流的开源与商业模型,展现出在虚拟主播、影视制作等真实场景中的广泛适用性。

用 AI 构建 AI

从构思到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格加速您的 AI 开发。

AI 协同编码
可直接使用的 GPU
最佳价格

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供