2 个月前

V2A-Mapper:一种轻量级的视觉到音频生成解决方案,通过连接基础模型实现

Wang, Heng ; Ma, Jianbo ; Pascual, Santiago ; Cartwright, Richard ; Cai, Weidong
V2A-Mapper:一种轻量级的视觉到音频生成解决方案,通过连接基础模型实现
摘要

在基础模型(FMs)之上构建人工智能(AI)系统正成为AI研究中的一个新范式。这些模型从大量数据中学习到的表示能力和生成能力可以轻松地适应并转移到各种下游任务中,而无需从头开始进行额外训练。然而,当涉及音频模态时,利用FMs进行跨模态生成的研究仍然不足。另一方面,从视觉输入自动生成语义相关的音频是跨模态生成研究中的一个重要问题。为了解决这一视觉到音频(V2A)生成问题,现有的方法倾向于使用中等规模的数据集从头设计和构建复杂的系统。在本文中,我们提出了一种轻量级的解决方案,通过利用基础模型,特别是CLIP、CLAP和AudioLDM来解决这一问题。首先,我们研究了视觉CLIP模型和听觉CLAP模型潜在空间之间的域差距。然后,我们提出了一种简单而有效的映射机制(V2A-Mapper),用于通过在CLIP和CLAP空间之间转换视觉输入来弥合这一域差距。基于转换后的CLAP嵌入向量,预训练的音频生成基础模型AudioLDM被用来生成高保真且与视觉对齐的声音。与以往的方法相比,我们的方法仅需快速训练V2A-Mapper即可实现目标。我们进一步分析并进行了广泛的实验以选择合适的V2A-Mapper,并展示了生成型映射器在保真度和多样性(FD)方面表现更好,而回归型映射器在相关性(CS)方面略胜一筹。通过对两个V2A数据集的客观和主观评估表明,与当前最先进的方法相比,我们的方法参数减少了86%,但在FD和CS指标上分别提高了53%和19%。