HyperAIHyperAI

Command Palette

Search for a command to run...

HuMo:通过协同多模态条件实现以人为中心的视频生成

Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

摘要

以人为本的视频生成(Human-Centric Video Generation, HCVG)方法旨在从多模态输入(包括文本、图像和音频)中合成人类视频。现有方法在有效协调这些异构模态方面面临两大挑战:一是缺乏带有配对三元组条件(即文本、参考图像与音频)的训练数据;二是难以在多模态输入下协同完成主体保持与音视频同步这两个子任务。针对上述问题,本文提出 HuMo——一种统一的、用于协同多模态控制的人类视频生成框架。针对第一个挑战,我们构建了一个高质量、多样化且包含配对文本、参考图像与音频的数据集。针对第二个挑战,我们设计了一种两阶段渐进式多模态训练范式,并结合任务特定策略:在主体保持任务中,为保留基础模型在提示遵循与视觉生成方面的能力,采用最小侵入性的图像注入策略;在音视频同步任务中,除常规使用的音频交叉注意力模块外,进一步提出“预测引导聚焦”(focus-by-predicting)策略,通过隐式方式引导模型将音频信号与面部区域建立关联。在多模态输入控制能力的联合学习方面,基于前期已获得的生成能力,我们逐步引入音视频同步任务,实现能力的渐进式融合。在推理阶段,为实现灵活且细粒度的多模态控制,我们设计了一种时间自适应的无分类器引导(Classifier-Free Guidance)策略,可在去噪过程中动态调整引导权重,提升生成质量与可控性。大量实验结果表明,HuMo 在各项子任务上均超越了现有的专用最先进方法,成功建立了一个统一的、支持协同多模态条件控制的人类视频生成框架。项目主页:https://phantom-video.github.io/HuMo


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供