Command Palette

Search for a command to run...

19 天前

UniAVGen:具有非对称跨模态交互的统一音频与视频生成

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

UniAVGen:具有非对称跨模态交互的统一音频与视频生成

摘要

由于缺乏有效的跨模态建模机制,现有的开源音视频生成方法往往在唇部同步性方面表现欠佳,且语义一致性不足。为缓解上述问题,我们提出UniAVGen——一种统一的音视频联合生成框架。UniAVGen基于双分支联合生成架构,采用两个并行的扩散Transformer(Diffusion Transformers, DiTs),构建出一个连贯的跨模态潜在空间。其核心是一个非对称跨模态交互机制,能够实现双向、时序对齐的跨注意力机制,从而确保精确的时空同步性与语义一致性。此外,该跨模态交互还通过一个面向人脸的调制模块(Face-Aware Modulation module)进行增强,该模块在交互过程中动态地优先关注关键视觉区域。为在推理阶段提升生成质量,我们进一步引入了一种新型策略——模态感知的无分类器引导(Modality-Aware Classifier-Free Guidance),该策略可显式增强跨模态相关性信号。值得注意的是,UniAVGen所具备的强健联合生成设计,使得单一模型即可无缝整合多个关键音视频任务,包括音视频联合生成与续写、视频到音频的配音(video-to-audio dubbing),以及音频驱动的视频生成。大量实验验证表明,UniAVGen仅需极少的训练样本(130万 vs. 3010万),在音视频同步性、音色一致性和情感一致性等方面均展现出全面优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniAVGen:具有非对称跨模态交互的统一音频与视频生成 | 论文 | HyperAI超神经