2 个月前

统一多模态

计算机视觉

Jiangning Zhang Junwei Zhu Zhenye Gan Donghao Luo Chuming Lin Feifan Xu Xu Peng Jianlong Hu Yuansen Liu Yijia Hong

摘要

我们提出了一种多模态驱动的高保真长期数字人动画框架——Soul，该框架能够基于单帧人像图像、文本提示和音频，生成语义连贯的视频，实现精准的口型同步、生动的面部表情以及稳定的身份保持。为缓解数据稀缺问题，我们构建了Soul-1M数据集，包含100万条精细标注样本，其自动化标注流程覆盖人像、上半身、全身及多人场景；同时，我们精心设计了Soul-Bench基准，用于对音频与文本引导的动画方法进行全方位、公平的评估。模型基于Wan2.2-5B骨干网络，融合音频注入层与多种训练策略，并引入阈值感知的码本替换机制，以保障长期生成的一致性。此外，通过采用步长与CFG蒸馏技术以及轻量级VAE，显著优化了推理效率，在仅带来可忽略的质量损失的前提下，实现了11.4倍的加速。大量实验表明，Soul在视频质量、视频-文本对齐、身份保持及口型同步准确性等方面，显著优于当前主流的开源与商业模型，展现出在虚拟主播、影视制作等真实场景中的广泛适用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

统一多模态

计算机视觉

Jiangning Zhang Junwei Zhu Zhenye Gan Donghao Luo Chuming Lin Feifan Xu Xu Peng Jianlong Hu Yuansen Liu Yijia Hong

摘要

我们提出了一种多模态驱动的高保真长期数字人动画框架——Soul，该框架能够基于单帧人像图像、文本提示和音频，生成语义连贯的视频，实现精准的口型同步、生动的面部表情以及稳定的身份保持。为缓解数据稀缺问题，我们构建了Soul-1M数据集，包含100万条精细标注样本，其自动化标注流程覆盖人像、上半身、全身及多人场景；同时，我们精心设计了Soul-Bench基准，用于对音频与文本引导的动画方法进行全方位、公平的评估。模型基于Wan2.2-5B骨干网络，融合音频注入层与多种训练策略，并引入阈值感知的码本替换机制，以保障长期生成的一致性。此外，通过采用步长与CFG蒸馏技术以及轻量级VAE，显著优化了推理效率，在仅带来可忽略的质量损失的前提下，实现了11.4倍的加速。大量实验表明，Soul在视频质量、视频-文本对齐、身份保持及口型同步准确性等方面，显著优于当前主流的开源与商业模型，展现出在虚拟主播、影视制作等真实场景中的广泛适用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供