15 小时前

Meituan LongCat Team

LongCat-Video-Avatar 1.5 数字人模型

摘要

尽管音频驱动视频生成技术取得了显著进展，但实现商业级稳定性仍面临挑战。我们推出了 LongCat-Video-Avatar 1.5，这是一个升级版的开源框架，相较于架构上的创新，该框架更侧重于系统化的工程实践与生产就绪性。通过将音频编码器升级至 Whisper Large，并精心扩展训练策略，v1.5 实现了精准的唇形同步、全身时间维度上的稳定性，以及具有严格身份一致性的长视频生成能力。经过严格的数据筛选与 RLHF Training（基于人类反馈的强化学习训练），该模型能够轻松泛化至动漫和动物等风格化领域，并原生支持复杂的真实世界场景，如多人交互和物体操控。此外，为满足工业部署的实际需求，我们采用了先进的步数蒸馏（step distillation）技术，将推理过程加速至最优的 8 NFE，在服务效率与视觉保真度之间取得了良好的平衡。通过涵盖 500 多个多样化测试案例的综合基准测试，我们进行了广泛的定量指标评估以及严谨的人类主观评估，验证了我们方法的优越性。结果显示，在人像拟真度评分及专家级质量评估方面，v1.5 在我们的基准测试中取得了具有竞争力的表现，甚至在部分指标上优于领先的闭源系统（如 HeyGen、OmniHuman 1.5 和 Kling Avatar 2.0）。随着 LongCat-Video-Avatar 1.5 的开源发布，学术研究成果原型与商业级部署之间的差距正在缩小。

一句话总结

美团 LongCat 团队推出 LongCat-Video-Avatar 1.5，这是一个优先考虑生产就绪性的开源框架，用于音频驱动的视频生成。该框架集成了 Whisper Large 音频编码器、RLHF 训练和步数蒸馏，将推理加速至 8 NFE，同时确保准确的唇形同步、全身时间稳定性和严格的身份一致性，涵盖风格化和现实世界领域。通过超过 500 个多样化测试案例的严格人工评估进行验证，该框架在与 HeyGen、OmniHuman 1.5 和 Kling Avatar 2.0 等领先闭源系统的对比中表现出具有竞争力或更优越的性能，最终缩小了学术研究原型与商业级部署之间的差距。

核心贡献

该论文提出了 LongCat-Video-Avatar 1.5，这是一个专为商业级稳定性设计的开源框架，用于音频驱动的视频生成。将音频编码器升级至 Whisper Large 并扩展训练方案，实现了长视频中的准确唇形同步和严格身份一致性。
采用先进的步数蒸馏将推理加速至最优的 8 NFE，平衡了服务效率与视觉保真度。进一步集成了 Group-Relative Policy Optimization 以增强生成质量和对风格化领域的泛化能力。
通过在包含超过 500 个多样化测试案例的综合基准上进行广泛的量化指标和人工评估，提供了严格的验证。该模型在拟人度和专家级质量评估方面，与领先的闭源系统相比表现出具有竞争力或更优越的性能。

引言

音频驱动的人类动画对于数字人和虚拟通信至关重要，但实现商业级稳定性仍然是一个重大障碍。现有模型在长时序身份一致性和复杂场景下的鲁棒性方面往往存在困难，例如多人交互或物体处理。作者提出了 LongCat-Video-Avatar 1.5，这是一个旨在弥合学术原型与生产就绪系统之间差距的开源框架。该团队利用升级的 Whisper Large 音频编码器来改善唇形同步，并采用 Group-Relative Policy Optimization 使生成质量与人类偏好对齐。此外，团队实施了先进的步数蒸馏，将推理加速至仅 8 NFE，同时保持视觉保真度。这种系统工程方法使该模型能够在各种基准测试中，在自然度和稳定性方面超越领先的闭源系统。

数据集

作者构建了一个多阶段通用数据管道，以支持稳定且可控的单人头像是生成。
原始视频按功能贡献组织，分为六个类别，包括特写面部、采访、表演、交互、音乐和动画。
统一的注释模式将异构视频映射到可重用的表示空间，涵盖人体结构、音频质量和视觉伪影。
离线注释预计算稳定属性，如面部位置和唇形同步置信度，以实现基于内容的选择。
在线验证执行片段级质量控制，在最终确定训练输入之前过滤持续时间、亮度和运动一致性。
三个专用管道解决通用框架之外的特定挑战，以提高生成质量。
多人数据利用 ByteTrack 和主动说话人检测来隔离不重叠的单人说话片段，并排除并发活动。
静音数据需要 Qwen3-Omni 和 Qwen3-VL 模型之间达成共识，以确认视频中所有片段的非说话状态。
情感数据遵循由 EmotiEffLib 细化的六类分类法，置信度阈值大于 0.7。
硬性排除规则从情感子集中移除合成内容或具有多个主体的视频。
上下文感知注释客观描述空间环境和物理运动演变，用于情感子集。
结构化元数据转换为文本条件，包括相机行为和视觉风格以及内容描述。
训练阶段根据任务特定属性（如身体构成或唇部可见性）选择样本，而不是粗略的来源规则。
这种方法使模型能够通过可解释的过滤学习语义内容、人类运动和相机语言之间的关系。

方法

作者利用基于 DiT 的统一视频扩散架构，继承自 LongCat-Video-Avatar 1.0 的基础。该模型构建于 3D 变分自编码器 (VAE) 之上，其中每个 Diffusion Transformer (DiT) 块集成了 3D 自注意力、文本交叉注意力和前馈网络 (FFN)。文本嵌入通过 UMT5 编码器处理，而 3D 旋转位置嵌入 (RoPE) 应用于 visual tokens 以捕获时空位置信息。完整的网络架构如下所示。

统一架构通过灵活的输入配置支持多种音频驱动的人类动画任务。网络接受三种类型的潜在序列：用于身份的参考潜在变量、用于上下文的运动潜在变量和用于生成的噪声潜在变量。对于文本到视频任务，仅提供噪声潜在变量。对于文本 - 图像到视频生成，参考潜在变量在时间上与噪声潜在变量连接。对于视频续写，上下文潜在变量与噪声潜在变量连接以作为条件信号。为了实现音频驱动生成，在每个 DiT 块内的文本交叉注意力模块之后插入了一个额外的音频交叉注意力层。自适应层归一化 (adaLN) 模块位于该层之前，作为门控机制，确保稳定优化并防止视觉先验的灾难性遗忘，同时将音频信号与嘴部运动对齐。

对于音频特征提取，系统从 Wav2Vec2 升级至 Whisper-large，利用其 1.5B 参数和多语言鲁棒性。为了处理超过 30 秒上下文限制的音频流，滑动窗口策略分割输入频谱图。生成的隐藏状态经过分组平均池化，将表示压缩为紧凑的 5 通道特征集。这些特征在时间上重采样至 25 FPS，并通过音频投影器以匹配视频潜在序列长度，确保严格的时间对齐。

训练管道由三个渐进阶段组成：基础模型训练、RLHF 训练和加速训练。基础模型训练利用流匹配框架，合成基于语音条件的时序连贯且保留身份的视频。该阶段从低分辨率预训练进展到高分辨率合成，随后引入参考图像以保留身份，并引入多人对话数据集用于对话场景。

在基础训练之后，模型使用 Group-Relative Policy Optimization (GRPO) 进行人类反馈强化学习 (RLHF)。这种方法从视频级转变为每帧奖励建模，沿时间分区分解奖励。有效相对优势计算为个体相对优势的加权和，允许更细粒度的信用分配，以解决局部运动不一致或结构崩溃。训练还结合了首帧手部存在检查和多片段展开策略，以支持长时序视频续写。

最后，加速训练采用 Distribution Matching Distillation 2 (DMD2)，将多步扩散模型蒸馏为高效少步生成器。为了克服 VRAM 瓶颈，使用了参数高效架构，其中单个基础 DiT 骨干配备多个 LoRA 适配器（生成器和虚假分数）。模型被蒸馏至 8 去噪步，平衡了推理速度与生成质量。对于多人对话，L-RoPE 机制将特定说话人区域与其音频条件关联，而静音音轨分配给背景角色以防止意外的唇部运动。

实验

该研究建立了一个包含 508 对图像和音频的人工评估基准，以评估虚拟人类生成在合理性和和谐度等维度。定性结果表明，提出的 LC-Video-Avatar 1.5 模型与最先进的方法相比实现了优越的稳定性和身份保留能力，尽管物理合理性和同步差距在整个行业依然存在。此外，基础版和加速版之间的比较突出了一种权衡，其中更快的变体优先考虑视觉稳定性，而基础模型提供更大的运动多样性和唇形对齐精度。

该表比较了标准基础模型与加速快速变体，揭示了表达丰富性和生成稳定性之间的明显权衡。虽然基础模型在单人场景中实现了略高的人拟度分数和更好的音视频和谐度，但快速变体在稳定性和物理合理性指标上显著优于它。快速模型在稳定性和合理性方面的问题率显著低于基础模型。基础模型在单人拟人度分数和和谐度指标上保持轻微优势。多人拟人度分数对于快速变体而言略高于基础模型。

此实验评估了标准基础模型与加速快速变体，以突出表达丰富性和生成稳定性之间的权衡。基础模型在单人拟人度和音视频和谐度方面保持轻微优势，而快速变体在稳定性和物理合理性方面显著优于它，且问题更少。此外，快速模型实现了略高的多人拟人度分数，表明其在更复杂交互中的有效性。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

15 小时前

Meituan LongCat Team

LongCat-Video-Avatar 1.5 数字人模型

跳转至 Notebook

摘要

一句话总结

核心贡献

该论文提出了 LongCat-Video-Avatar 1.5，这是一个专为商业级稳定性设计的开源框架，用于音频驱动的视频生成。将音频编码器升级至 Whisper Large 并扩展训练方案，实现了长视频中的准确唇形同步和严格身份一致性。
采用先进的步数蒸馏将推理加速至最优的 8 NFE，平衡了服务效率与视觉保真度。进一步集成了 Group-Relative Policy Optimization 以增强生成质量和对风格化领域的泛化能力。
通过在包含超过 500 个多样化测试案例的综合基准上进行广泛的量化指标和人工评估，提供了严格的验证。该模型在拟人度和专家级质量评估方面，与领先的闭源系统相比表现出具有竞争力或更优越的性能。

引言

数据集

作者构建了一个多阶段通用数据管道，以支持稳定且可控的单人头像是生成。
原始视频按功能贡献组织，分为六个类别，包括特写面部、采访、表演、交互、音乐和动画。
统一的注释模式将异构视频映射到可重用的表示空间，涵盖人体结构、音频质量和视觉伪影。
离线注释预计算稳定属性，如面部位置和唇形同步置信度，以实现基于内容的选择。
在线验证执行片段级质量控制，在最终确定训练输入之前过滤持续时间、亮度和运动一致性。
三个专用管道解决通用框架之外的特定挑战，以提高生成质量。
多人数据利用 ByteTrack 和主动说话人检测来隔离不重叠的单人说话片段，并排除并发活动。
静音数据需要 Qwen3-Omni 和 Qwen3-VL 模型之间达成共识，以确认视频中所有片段的非说话状态。
情感数据遵循由 EmotiEffLib 细化的六类分类法，置信度阈值大于 0.7。
硬性排除规则从情感子集中移除合成内容或具有多个主体的视频。
上下文感知注释客观描述空间环境和物理运动演变，用于情感子集。
结构化元数据转换为文本条件，包括相机行为和视觉风格以及内容描述。
训练阶段根据任务特定属性（如身体构成或唇部可见性）选择样本，而不是粗略的来源规则。
这种方法使模型能够通过可解释的过滤学习语义内容、人类运动和相机语言之间的关系。

方法

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

LongCat-Video-Avatar 1.5 技术报告

Meituan LongCat Team

LongCat-Video-Avatar 1.5 数字人模型

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LongCat-Video-Avatar 1.5 技术报告

Meituan LongCat Team

LongCat-Video-Avatar 1.5 数字人模型

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LongCat-Video-Avatar 1.5 技术报告

Meituan LongCat Team

LongCat-Video-Avatar 1.5 数字人模型

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters