HyperAIHyperAI

Command Palette

Search for a command to run...

Console
6 天前

实时虚拟形象:基于实时音频驱动的无限长度虚拟形象生成

实时虚拟形象:基于实时音频驱动的无限长度虚拟形象生成

摘要

现有的基于扩散模型的视频生成方法在根本上受限于串行计算过程以及长时程不一致性,这严重制约了其在实时、流式音频驱动头像合成中的实际应用。本文提出 Live Avatar——一种算法与系统协同设计的框架,能够利用参数量达140亿的扩散模型,实现高效、高保真且无限长度的头像生成。我们提出时间步强制流水线并行(Timestep-forcing Pipeline Parallelism, TPP),这是一种分布式推理范式,通过在多张GPU间流水线化去噪步骤,有效突破自回归生成的瓶颈,实现稳定、低延迟的实时流式输出。为进一步提升时序一致性,缓解身份漂移与色彩伪影问题,我们设计了滚动缓存帧机制(Rolling Sink Frame Mechanism, RSFM),通过动态使用缓存的参考图像对视觉外观进行重校准,从而保持序列的视觉连贯性。此外,我们引入自强制分布匹配蒸馏(Self-Forcing Distribution Matching Distillation)方法,使大规模模型能够在不损失视觉质量的前提下,实现因果性、可流式适配的部署。Live Avatar 在5张H800 GPU上实现了端到端20 FPS的生成速度,据我们所知,这是首个在该规模下实现实用化、实时、高保真头像生成的系统。本工作为先进扩散模型在工业级长视频合成应用中的部署树立了新范式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供