2 个月前

控制多模态联合训练以实现高质量的视频到音频合成

Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
控制多模态联合训练以实现高质量的视频到音频合成
摘要

我们提出了一种基于视频和可选文本条件生成高质量且同步音频的新颖多模态联合训练框架——MMAudio。与仅基于(有限的)视频数据进行单模态训练不同,MMAudio通过更大规模、易于获取的文本-音频数据进行联合训练,以学习生成语义对齐的高质量音频样本。此外,我们通过一个条件同步模块在帧级别上对齐视频条件与音频潜在变量,从而提高了音视频同步性。MMAudio采用流匹配目标进行训练,在音频质量、语义对齐和音视频同步方面达到了现有公开模型中的最佳水平,同时具有较低的推理时间(生成8秒片段仅需1.23秒)和仅有157M参数量。MMAudio在文本到音频生成任务中也表现出令人惊讶的竞争性能,表明联合训练不会妨碍单模态性能。代码和演示可在以下网址获取:https://hkchengrex.github.io/MMAudio

控制多模态联合训练以实现高质量的视频到音频合成 | 最新论文 | HyperAI超神经