2 个月前

Frieren:基于修正流匹配的高效视频转音频生成网络

Wang, Yongqi ; Guo, Wenxiang ; Huang, Rongjie ; Huang, Jiawei ; Wang, Zehan ; You, Fuming ; Li, Ruiqi ; Zhao, Zhou
Frieren:基于修正流匹配的高效视频转音频生成网络
摘要

视频到音频(V2A)生成的目标是从无声视频中合成内容匹配的音频,而构建具有高质量、高效性和视听时间同步性的V2A模型仍然是一项挑战。我们提出了一种基于修正流匹配的V2A模型——Frieren。Frieren通过直线路径从噪声回归到频谱图潜在空间中的条件传输向量场,并通过求解常微分方程(ODE)进行采样,在音频质量方面优于自回归和基于得分的模型。通过采用基于前馈变换器的非自回归向量场估计器以及具有强时间对齐能力的通道级跨模态特征融合,我们的模型生成的音频与输入视频高度同步。此外,通过再流和带有引导向量场的一步蒸馏,我们的模型可以在少数甚至仅一步采样中生成优质的音频。实验结果表明,Frieren在VGGSound数据集上实现了生成质量和时间对齐方面的最先进性能,对齐准确率达到97.22%,并且在强大的扩散基线模型上,其初始分数提高了6.2%。音频样本可在 http://frieren-v2a.github.io 获取。

Frieren:基于修正流匹配的高效视频转音频生成网络 | 最新论文 | HyperAI超神经