Command Palette

Search for a command to run...

2 个月前

OmniHuman-1.5:通过认知模拟为虚拟化身注入主动思维

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

OmniHuman-1.5:通过认知模拟为虚拟化身注入主动思维

摘要

现有的视频虚拟角色模型虽能生成流畅的人体动画,但在超越单纯的物理相似性、捕捉角色真实精神特质方面仍存在困难。其动作通常仅与音频节奏等低层次信号同步,缺乏对情感、意图或上下文的深层语义理解。为弥合这一差距,我们提出一种新框架,旨在生成不仅在物理上合理,而且在语义上连贯且富有表现力的角色动画。我们的模型 OmniHuman-1.5 建立在两项关键技术贡献之上。首先,我们利用多模态大语言模型,生成结构化的文本表征,提供高层语义引导。这一引导机制使我们的动作生成器摆脱了简单节奏同步的局限,能够生成在语境和情感上均具共鸣的动作。其次,为实现多模态输入的有效融合并缓解模态间的冲突,我们提出一种专为多模态设计的 DiT 架构,并引入一种新颖的“伪末帧”(Pseudo Last Frame)机制。这两项技术的协同作用,使模型能够准确理解音频、图像与文本的联合语义,从而生成与角色个性、场景氛围及语言提示高度一致的动画动作。大量实验表明,该模型在多项综合指标上均达到领先水平,包括唇形同步精度、视频质量、动作自然度以及与文本提示的语义一致性。此外,该方法在复杂场景下也展现出显著的可扩展性,例如涉及多人或多类非人类主体的场景。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供