摘要

现有的视频虚拟角色模型虽能生成流畅的人体动画，但在超越单纯的物理相似性、捕捉角色真实精神特质方面仍存在困难。其动作通常仅与音频节奏等低层次信号同步，缺乏对情感、意图或上下文的深层语义理解。为弥合这一差距，我们提出一种新框架，旨在生成不仅在物理上合理，而且在语义上连贯且富有表现力的角色动画。我们的模型 OmniHuman-1.5 建立在两项关键技术贡献之上。首先，我们利用多模态大语言模型，生成结构化的文本表征，提供高层语义引导。这一引导机制使我们的动作生成器摆脱了简单节奏同步的局限，能够生成在语境和情感上均具共鸣的动作。其次，为实现多模态输入的有效融合并缓解模态间的冲突，我们提出一种专为多模态设计的 DiT 架构，并引入一种新颖的“伪末帧”（Pseudo Last Frame）机制。这两项技术的协同作用，使模型能够准确理解音频、图像与文本的联合语义，从而生成与角色个性、场景氛围及语言提示高度一致的动画动作。大量实验表明，该模型在多项综合指标上均达到领先水平，包括唇形同步精度、视频质量、动作自然度以及与文本提示的语义一致性。此外，该方法在复杂场景下也展现出显著的可扩展性，例如涉及多人或多类非人类主体的场景。

源 PDF 查看代码