摘要

由于缺乏有效的跨模态建模机制，现有的开源音视频生成方法往往在唇部同步性方面表现欠佳，且语义一致性不足。为缓解上述问题，我们提出UniAVGen——一种统一的音视频联合生成框架。UniAVGen基于双分支联合生成架构，采用两个并行的扩散Transformer（Diffusion Transformers, DiTs），构建出一个连贯的跨模态潜在空间。其核心是一个非对称跨模态交互机制，能够实现双向、时序对齐的跨注意力机制，从而确保精确的时空同步性与语义一致性。此外，该跨模态交互还通过一个面向人脸的调制模块（Face-Aware Modulation module）进行增强，该模块在交互过程中动态地优先关注关键视觉区域。为在推理阶段提升生成质量，我们进一步引入了一种新型策略——模态感知的无分类器引导（Modality-Aware Classifier-Free Guidance），该策略可显式增强跨模态相关性信号。值得注意的是，UniAVGen所具备的强健联合生成设计，使得单一模型即可无缝整合多个关键音视频任务，包括音视频联合生成与续写、视频到音频的配音（video-to-audio dubbing），以及音频驱动的视频生成。大量实验验证表明，UniAVGen仅需极少的训练样本（130万 vs. 3010万），在音视频同步性、音色一致性和情感一致性等方面均展现出全面优势。

源 PDF