Command Palette
Search for a command to run...
Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

摘要
以人为本的视频生成(Human-Centric Video Generation, HCVG)方法旨在从多模态输入(包括文本、图像和音频)中合成人类视频。现有方法在协调这些异构模态时面临两大挑战:一是缺乏带有配对三元组条件(即文本、参考图像与音频同时存在)的训练数据;二是难以在多模态输入下协同完成主体保持与音视频同步这两个子任务。针对上述问题,本文提出 HuMo——一种用于协同多模态控制的统一HCVG框架。针对第一个挑战,我们构建了一个高质量、多样化且包含配对文本、参考图像与音频的数据集。针对第二个挑战,我们提出一种两阶段渐进式多模态训练范式,并结合任务特定策略。在主体保持任务中,为保留基础模型在提示遵循与视觉生成方面的能力,我们采用最小侵入性的图像注入策略。在音视频同步任务中,除常规使用的音频交叉注意力模块外,我们进一步提出“先预测、再聚焦”(focus-by-predicting)策略,通过隐式引导模型将音频信号与面部区域建立关联。在多模态输入下可控性能力的联合学习方面,基于已习得的模型能力,我们逐步引入音视频同步任务。在推理阶段,为实现灵活且细粒度的多模态控制,我们设计了一种时间自适应的无分类器引导(Classifier-Free Guidance)策略,能够在去噪过程中动态调整引导权重。大量实验结果表明,HuMo在各项子任务上均超越了现有的专用最先进方法,成功建立了一个统一的、支持协同多模态条件控制的人类视频生成框架。项目主页:https://phantom-video.github.io/HuMo。