2 个月前
CLAPSep:利用对比预训练模型进行多模态查询条件下的目标声音提取
Ma, Hao ; Peng, Zhiyuan ; Li, Xu ; Shao, Mingjie ; Wu, Xixin ; Liu, Ju

摘要
普遍声音分离(USS)旨在从现实世界的录音中提取任意类型的声音。这可以通过语言查询目标声音提取(TSE)来实现,通常包括两个组件:一个查询网络,将用户查询转换为条件嵌入;以及一个分离网络,根据这些条件嵌入提取目标声音。现有的方法通常从头开始训练模型,因此需要大量的数据和计算资源才能使随机初始化的模型理解声音事件并进行相应的分离。在本文中,我们提出将预训练模型集成到TSE模型中以解决上述问题。具体而言,我们将强大的对比语言-音频预训练模型(CLAP)定制和适应于USS,记作CLAPSep。CLAPSep还接受灵活的用户输入,可以处理单模态或多模态的正向和负向用户提示,用于目标声音提取。这些关键特性不仅能够提升提取性能,还能增强其应用的灵活性。我们在5个不同的数据集上进行了广泛的实验,以展示所提出的CLAPSep在快速训练收敛、零样本和少样本泛化能力方面的优越性能,显著超越了以往的方法。我们已发布完整的代码和一些音频示例,以便于复现和评估。