2 个月前

深度聚类:用于分割和分离的判别嵌入

John R. Hershey; Zhuo Chen; Jonathan Le Roux; Shinji Watanabe
深度聚类:用于分割和分离的判别嵌入
摘要

我们提出了一种在深度学习框架下解决声源分离问题的方法,该框架被称为“深度聚类”(deep clustering)。与直接估计信号或掩码函数不同,我们训练一个深度网络以生成频谱图嵌入,这些嵌入在训练数据中对分割标签具有区分性。以往的深度网络方法在学习能力和速度方面提供了显著的优势,但如何利用它们进行类别无关的信号分离一直不清楚。相比之下,谱聚类方法在处理要分割的类别和项目数量方面具有灵活性,但如何利用深度网络的学习能力和速度尚不明确。为了结合两者的优点,我们使用了一个目标函数来训练嵌入,这些嵌入可以生成一个低秩近似的理想成对亲和矩阵,并且是以类别无关的方式进行的。这避免了高成本的谱分解,而是生成了适合简单聚类方法的紧凑聚类。因此,分割信息隐含在嵌入中,并可以通过聚类“解码”。初步实验表明,所提出的方法可以分离语音:当使用包含两个说话人的混合信号的频谱图特征进行训练,并在保留的一组说话人的混合信号上进行测试时,它可以推断出提高信号质量约6 dB的掩码函数。我们还展示了该模型可以在仅使用两个说话人的混合信号进行训练的情况下推广到三个说话人的混合信号。该框架无需类别标签即可使用,因此有潜力用于多种声音类型的训练,并推广到新的声源。我们希望未来的工作能够扩展到任意声音的分割,并进一步应用于麦克风阵列方法以及图像分割和其他领域。

深度聚类:用于分割和分离的判别嵌入 | 最新论文 | HyperAI超神经