7 天前

通过弱标签数据的基于查询的学习实现零样本音频源分离

Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov
通过弱标签数据的基于查询的学习实现零样本音频源分离
摘要

深度学习技术在将音频分离为不同声源方面面临诸多挑战。传统架构需要为不同类型的音频声源分别训练独立模型。尽管一些通用分离器采用单一模型以应对多种声源,但其在处理未见过的声源时泛化能力有限。本文提出一种三阶段流水线方法,利用大规模但弱标注的数据集AudioSet训练一个通用音频声源分离模型。首先,我们提出一种基于Transformer的声事件检测系统,用于处理弱标注的训练数据;其次,设计了一种基于查询(query-based)的音频分离模型,利用上述数据进行模型训练;第三,构建了一个潜在嵌入处理器,用于编码指定目标音频声源的查询信息,从而实现零样本(zero-shot)泛化能力。所提出的方法仅使用单一模型即可实现对多种音频声源的分离,且整个训练过程完全依赖于弱标注数据。此外,该音频分离器具备零样本学习能力,能够分离在训练阶段从未出现过的音频声源类型。为评估分离性能,我们在MUSDB18数据集上测试模型表现,而训练过程仅基于与MUSDB18不重叠的AudioSet数据集。为进一步验证零样本性能,我们还设计了另一项实验,测试模型对训练阶段被排除的声源类型进行分离的能力。实验结果表明,在两种情况下,该模型的源干扰比(Source-to-Distortion Ratio, SDR)性能均达到当前监督学习模型的相当水平。

通过弱标签数据的基于查询的学习实现零样本音频源分离 | 最新论文 | HyperAI超神经