
摘要
视觉和音频场景的内容是多方面的,因此一段视频可以与多种音频相匹配,反之亦然。在视频到音频生成任务中,引入控制方法以调控生成的音频是非常必要的。尽管视频到音频生成已经是一项成熟的技术任务,但现有的方法缺乏这种可控性。在这项工作中,我们提出了一种多模态生成框架——VATT(Video-Audio-Text Transformer),该框架接受视频和可选的文本提示作为输入,并生成相应的音频及可选的音频文字描述。该框架具有两个优势:i)通过文本可以补充视觉信息的上下文,从而对视频到音频的生成过程进行精细化控制;ii)模型可以通过生成音频字幕来建议为视频生成什么样的音频。VATT由两个关键模块组成:VATT Converter 和 VATT Audio。VATT Converter 是一个经过微调以执行指令的大语言模型(LLM),包含一个投影层,用于将视频特征映射到大语言模型的向量空间;而 VATT Audio 则是一个变压器模型(Transformer),它通过迭代并行解码从视觉帧和可选文本提示中生成音频标记。这些音频标记随后由预训练的神经编解码器转换为波形。实验结果表明,在客观指标上,当不提供音频字幕时,VATT 的性能与现有视频到音频生成方法相当;而在提供音频字幕作为提示的情况下,VATT 的表现更加出色(最低KLD得分为1.41)。此外,主观研究显示,用户更倾向于选择由VATT Audio生成的音频而非现有方法生成的音频。VATT不仅通过文本实现了可控的视频到音频生成,还通过音频字幕为视频提供了文本提示建议,开启了诸如文本引导下的视频到音频生成和视频到音频字幕等新应用领域。