
摘要
音频描述任务在本质上类似于图像和视频描述任务。然而,它受到的关注要少得多。我们提出了音频描述的三个目标——(i)生成文本的流畅性,(ii)生成文本对输入音频的忠实度,以及与之相关的(iii)可听性,即仅基于音频即可被感知的质量。我们的方法是一种零样本方法,即我们不专门学习如何进行描述。相反,描述过程是一个推理过程,涉及三个网络,分别对应上述三个期望的质量:(i)大型语言模型,在本研究中出于便利考虑选择了GPT-2;(ii)提供音频文件与文本匹配分数的模型,我们使用了一种称为ImageBind的多模态匹配网络;(iii)文本分类器,该分类器使用我们通过指示GPT-4自动生成的数据集进行训练,这些指示旨在引导生成既可听又不可听的句子。我们在AudioCap数据集上展示了实验结果,证明了可听性指导显著提升了性能,而基线方法由于缺乏这一目标而表现较差。