KlingAvatar 2.0 技术报告
KlingAvatar 2.0 技术报告
Abstract
近年来,Avatar视频生成模型取得了显著进展。然而,现有方法在生成长时长、高分辨率视频时仍存在效率低下等问题,随着视频长度增加,容易出现时间漂移、画质下降以及指令跟随能力弱等缺陷。为解决上述挑战,我们提出KlingAvatar 2.0,一种时空级联框架,能够在空间分辨率和时间维度上实现逐步上采样。该框架首先生成低分辨率的蓝图视频关键帧,以捕捉全局语义与运动信息;随后,采用首尾帧策略对这些关键帧进行精细化处理,生成高分辨率且时间连贯的子片段,同时在长视频中保持平滑的时间过渡。为增强长视频中跨模态指令的融合与对齐能力,我们引入了一个协同推理导演(Co-Reasoning Director),其由三个模态专用的大语言模型(LLM)专家组成。这些专家分别对不同模态的重要性进行推理,并推断用户的深层意图,通过多轮对话将输入转化为详细的故事线。此外,一个负向导演(Negative Director)进一步优化负向提示,以提升指令对齐效果。基于上述组件,我们进一步扩展框架,支持基于身份的多角色控制。大量实验表明,所提模型有效解决了高效、多模态对齐的长时长高分辨率视频生成难题,在视觉清晰度、唇齿细节的真实呈现与精准唇动同步、身份一致性保持以及多模态指令连贯遵循等方面均表现出显著优势。
一句话摘要
Kling团队与快手科技提出KlingAvatar 2.0,一种时空级联框架,包含协同推理导演与负提示优化机制,实现高效、长时长、高分辨率的音频驱动虚拟人视频生成,支持身份保持、多模态对齐及多角色控制,显著提升视觉保真度、唇音同步性与指令遵循能力。
主要贡献
-
我们提出一种时空级联框架,通过先生成低分辨率蓝图关键帧,再逐步精细化为细节丰富、时间连贯的子片段,高效生成长时长、高分辨率的虚拟人视频,有效缓解时间漂移与视觉退化问题,同时保持平滑过渡。
-
我们引入一个由模态专用大语言模型专家组成的协同推理导演,通过多轮对话推断用户意图、解决模态冲突并生成连贯的镜头级叙事,同时辅以负向导演,通过精细化负提示优化提升语义准确性,增强指令对齐。
-
本框架通过基于深度DiT块特征与ID感知注意力的掩码控制音频注入,支持特定身份的多角色控制,在复杂对话场景中实现同步且个性化的动画表现。大规模电影级数据集上的评估表明,其在视觉质量、唇音同步、身份保持及多模态指令遵循方面均显著优于现有方法。
引言
音频驱动虚拟人视频生成技术可创建具有同步面部表情、唇部动作与身体姿态的逼真、富有表现力的数字人,广泛应用于教育、娱乐与虚拟助手等领域。尽管先前方法已从基础唇音同步发展到使用扩散模型实现全身动画,但在长时长、高分辨率合成方面仍面临挑战,主要表现为时间漂移、视觉退化以及与复杂多模态指令对齐不佳。现有方法往往难以在长序列中维持连贯性,或无法有效处理多角色交互中的独立音频控制。本文提出KlingAvatar 2.0,一种时空级联框架:首先生成低分辨率蓝图关键帧以捕捉全局运动与语义,随后通过首尾帧条件策略将这些关键帧逐步细化为高分辨率、时间一致的子片段。为提升指令遵循能力,我们设计了协同推理导演——一个包含模态专用大语言模型专家的多轮对话系统,用于解决冲突并生成详细叙事;同时引入负向导演,通过精细化负提示增强语义准确性。此外,框架还通过基于深度DiT特征的掩码感知音频注入,实现特定身份的多角色控制。上述创新共同实现了高效、高保真、长时视频生成,具备强身份保持、精准唇音同步与鲁棒多模态对齐能力。
方法
作者采用时空级联扩散框架,实现高保真、长时数字人视频生成,具备精确唇音同步与多说话人精细控制能力。该框架通过分层流水线整合全局规划与局部优化,如整体系统图所示。流程始于多模态输入——参考图像、音频与文本指令,输入至协同推理多模态大语言模型(MLLM)导演。该导演协调三位专业专家之间的多轮对话:以音频为中心的专家分析语音内容与副语言线索,视觉专家提取外观与场景上下文,文本专家解析用户指令并合成连贯叙事。协同推理机制消解歧义,生成结构化的正向与负向叙事,指导后续合成阶段。

时空级联从低分辨率视频扩散模型(Low-Res Video DiT)开始,生成捕捉场景全局动态、内容与布局的蓝图视频。该初始输出由代表整体运动与结构的关键帧构成。这些关键帧随后由高分辨率DiT处理,以丰富细节,同时保留身份与场景构图,由协同推理导演的全局提示引导。高分辨率锚点关键帧再通过以首帧与末帧为条件的低分辨率视频扩散模型扩展为音频同步子片段。此步骤确保时间连贯性与唇音同步,提示通过蓝图关键帧增强,以优化动作与表情。采用音频感知插值策略合成过渡帧,提升空间一致性与时间连通性。最后,高分辨率视频扩散模型对低分辨率子片段进行超分辨率处理,生成高保真、时间一致的视频片段。

为支持多角色场景,系统在深层DiT特征上附加掩码预测头,预测分割掩码以控制特定身份音频注入对应区域。这实现了对各角色唇部动作与表情的精确控制。每个角色的音频与视觉输入通过专用编码器处理,Human Video DiT生成中间表示,再经掩码预测MLP优化。最终输出经一系列模块(DWPose、YOLO、SAM 2)处理,生成多角色视频。该模块化设计确保各角色动作与外观与其对应音频输入精确同步,同时维持整体场景一致性。
实验
- 评估了轨迹保持与分布匹配蒸馏方法,选择轨迹保持蒸馏以实现性能、稳定性与推理效率的更优平衡;结合定制化时间调度器与多任务蒸馏范式,显著提升生成质量。
- 在300个测试用例(100个中文、100个英文、100个演唱)上进行基于人类偏好的主观评估,采用GSB成对比较,以(G+S)/(B+S)为主要指标,并对人脸-唇部同步、视觉质量、动作质量、动作表现力与文本相关性进行详细评估。
- 在所有维度上均优于三个基线方法——HeyGen、Kling-Avatar与OmniHuman-1.5,尤其在动作表现力与文本相关性上提升显著;生成更自然的发丝动态、符合物理规律的头部姿态及与提示一致的准确摄像机轨迹。
- 实现更优的多模态对齐,包括精准唇音同步、情感一致的动作姿态,以及对细粒度动作(如双手交叉置于胸前)的正确执行,在单说话人与多人交互场景中均优于基线。
- 引入基于镜头的负向导演,采用动态、上下文感知的负提示,实现对伪影与叙事不一致的细粒度控制,生成更稳定、自然且情感忠实的视频。
结果表明,KlingAvatar 2.0在多数评估指标上均优于三个基线方法,尤其在动作表现力与文本相关性方面提升显著。模型在整体偏好、人脸-唇部同步、视觉质量、动作质量与文本相关性方面得分均高于HeyGen、Kling-Avatar与OmniHuman-1.5,表明其具备更强的多模态对齐与生成性能。

结果表明,KlingAvatar 2.0在所有评估维度上均优于所有基线方法,各项指标得分最高,包括整体偏好、人脸-唇部同步、视觉质量、动作质量、动作表现力与文本相关性。模型在动作表现力与文本相关性方面提升尤为显著,这两项得分均高于HeyGen、Kling-Avatar与OmniHuman-1.5。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.