
摘要
语音分离模型在许多语音处理应用中用于隔离个别说话者。深度学习模型已经在多个语音分离基准测试中展现出领先的结果。其中一类被称为时间卷积网络(Temporal Convolutional Networks, TCNs)的模型在语音分离任务中显示出良好的效果。这些模型的一个局限性在于它们具有固定的感受野(Receptive Field, RF)。最近在语音去混响领域的研究表明,TCN 的最佳感受野会随着语音信号的混响特性而变化。在这项工作中,提出了可变形卷积作为解决方案,使 TCN 模型能够拥有动态的感受野,以适应不同混响时间下的混响语音分离任务。所提出的模型在 WHAMR 基准测试上,相对于输入信号平均提升了 11.1 分贝的尺度不变信噪比(Scale-Invariant Signal-to-Distortion Ratio, SISDR)。此外,提出了一种参数量为 1.3 百万的相对较小的可变形 TCN 模型,其分离性能与更大且计算复杂度更高的模型相当。