8 个月前

统一多模态

多模态表征

音频和语音处理

Hao Ma Zhiyuan Peng Xu Li Mingjie Shao Xixin Wu Ju Liu

摘要

普遍声音分离（USS）旨在从现实世界的录音中提取任意类型的声音。这可以通过语言查询目标声音提取（TSE）来实现，通常包括两个组件：一个查询网络，将用户查询转换为条件嵌入；以及一个分离网络，根据这些条件嵌入提取目标声音。现有的方法通常从头开始训练模型，因此需要大量的数据和计算资源才能使随机初始化的模型理解声音事件并进行相应的分离。在本文中，我们提出将预训练模型集成到TSE模型中以解决上述问题。具体而言，我们将强大的对比语言-音频预训练模型（CLAP）定制和适应于USS，记作CLAPSep。CLAPSep还接受灵活的用户输入，可以处理单模态或多模态的正向和负向用户提示，用于目标声音提取。这些关键特性不仅能够提升提取性能，还能增强其应用的灵活性。我们在5个不同的数据集上进行了广泛的实验，以展示所提出的CLAPSep在快速训练收敛、零样本和少样本泛化能力方面的优越性能，显著超越了以往的方法。我们已发布完整的代码和一些音频示例，以便于复现和评估。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

多模态表征

音频和语音处理

Hao Ma Zhiyuan Peng Xu Li Mingjie Shao Xixin Wu Ju Liu

摘要

普遍声音分离（USS）旨在从现实世界的录音中提取任意类型的声音。这可以通过语言查询目标声音提取（TSE）来实现，通常包括两个组件：一个查询网络，将用户查询转换为条件嵌入；以及一个分离网络，根据这些条件嵌入提取目标声音。现有的方法通常从头开始训练模型，因此需要大量的数据和计算资源才能使随机初始化的模型理解声音事件并进行相应的分离。在本文中，我们提出将预训练模型集成到TSE模型中以解决上述问题。具体而言，我们将强大的对比语言-音频预训练模型（CLAP）定制和适应于USS，记作CLAPSep。CLAPSep还接受灵活的用户输入，可以处理单模态或多模态的正向和负向用户提示，用于目标声音提取。这些关键特性不仅能够提升提取性能，还能增强其应用的灵活性。我们在5个不同的数据集上进行了广泛的实验，以展示所提出的CLAPSep在快速训练收敛、零样本和少样本泛化能力方面的优越性能，显著超越了以往的方法。我们已发布完整的代码和一些音频示例，以便于复现和评估。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

CLAPSep：利用对比预训练模型进行多模态查询条件下的目标声音提取 | 论文 | HyperAI超神经