Command Palette
Search for a command to run...
Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

摘要
由于缺乏有效的跨模态建模机制,现有的开源音视频生成方法往往在唇部同步性方面表现欠佳,且语义一致性不足。为缓解上述问题,我们提出UniAVGen——一种统一的音视频联合生成框架。UniAVGen基于双分支联合生成架构,采用两个并行的扩散Transformer(Diffusion Transformers, DiTs),构建出一个连贯的跨模态潜在空间。其核心是一个非对称跨模态交互机制,能够实现双向、时序对齐的跨注意力机制,从而确保精确的时空同步性与语义一致性。此外,该跨模态交互还通过一个面向人脸的调制模块(Face-Aware Modulation module)进行增强,该模块在交互过程中动态地优先关注关键视觉区域。为在推理阶段提升生成质量,我们进一步引入了一种新型策略——模态感知的无分类器引导(Modality-Aware Classifier-Free Guidance),该策略可显式增强跨模态相关性信号。值得注意的是,UniAVGen所具备的强健联合生成设计,使得单一模型即可无缝整合多个关键音视频任务,包括音视频联合生成与续写、视频到音频的配音(video-to-audio dubbing),以及音频驱动的视频生成。大量实验验证表明,UniAVGen仅需极少的训练样本(130万 vs. 3010万),在音视频同步性、音色一致性和情感一致性等方面均展现出全面优势。