HunyuanCustom:一种多模态驱动的定制化视频生成架构
Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
发布日期: 5/12/2025

摘要
定制视频生成旨在在灵活的用户定义条件下生成包含特定主题的视频,但现有的方法通常在身份一致性方面存在困难,并且支持的输入模态有限。本文提出了一种名为“HunyuanCustom”的多模态定制视频生成框架,该框架强调主题一致性,同时支持图像、音频、视频和文本条件。基于HunyuanVideo模型,我们首先通过引入基于LLaVA的文本-图像融合模块来解决图像-文本条件下的生成任务,以增强多模态理解能力,并通过时间拼接技术强化跨帧的身份特征,提出了图像ID增强模块。为了实现音频和视频条件下的生成,我们进一步提出了特定模态的条件注入机制:AudioNet模块通过空间交叉注意力实现层次对齐;以及一种基于补丁化的特征对齐网络的视频驱动注入模块,该模块通过潜压缩条件视频进行集成。广泛的实验表明,在单主体和多主体场景下,HunyuanCustom在身份一致性、真实性和文本-视频对齐等方面显著优于当前最先进的开源和闭源方法。此外,我们在下游任务中验证了其鲁棒性,包括音频和视频驱动的定制视频生成。我们的结果突显了多模态条件和身份保持策略在推进可控视频生成方面的有效性。所有代码和模型均可在https://hunyuancustom.github.io获取。