2 个月前

从视觉到听觉及更远：视听表征与生成的统一模型

Su, Kun ; Liu, Xiulong ; Shlizerman, Eli

摘要

视频包含了视觉和听觉数据，创造了一种感知上丰富的体验，在这种体验中，这两种模态相互补充。因此，视频是研究音频和视觉元素之间相互作用的一种有价值的媒体形式。以往对音视频模态的研究主要集中在音视频表示学习或基于另一种模态生成模型的建模上，导致了这两个分支之间的脱节。目前尚未开发出一种统一的框架来同时进行表示学习和模态生成。在本工作中，我们介绍了一种名为从视觉到听觉及更远（Vision to Audio and Beyond, VAB）的新框架，以弥合音视频表示学习与从视觉到听觉生成之间的差距。VAB的关键方法在于，它不是直接处理原始视频帧和音频数据，而是在潜在空间内进行表示学习和生成建模。具体而言，VAB使用预训练的音频分词器和图像编码器分别获取音频分词和视觉特征。然后，它执行以视觉为条件的掩码音频分词预测的预训练任务。这种训练策略使模型能够在上下文中进行学习，并同时实现从视频到音频的生成。在预训练阶段之后，VAB采用迭代解码的方法快速生成以视觉特征为条件的音频分词。由于VAB是一个统一的模型，其主干可以针对各种音视频下游任务进行微调。我们的实验展示了VAB在从视频生成高质量音频方面的高效性及其获取语义音视频特征的能力，从而在音视频检索和分类任务中取得了具有竞争力的结果。