
摘要
目前领先的单通道语音分离(SS)模型之一基于TasNet架构,并采用双路径分段技术,其中每个分段的大小在所有网络层中保持不变。相比之下,我们的核心发现是:多粒度特征对于提升上下文建模能力与计算效率至关重要。为此,我们提出一种具有新颖沙漏形结构的自注意力网络——Sandglasset,该模型在显著减小模型规模和计算开销的前提下,实现了当前最先进的语音分离性能。在Sandglasset的每个模块中,特征的时间粒度从输入开始逐步变粗,直至网络一半深度处达到最粗粒度,随后再逐步细化,最终恢复至原始信号的细粒度水平。我们还发现,相同粒度特征之间的残差连接对于在通过瓶颈层后有效保留信息具有关键作用。实验结果表明,仅包含230万参数的Sandglasset在两个基准语音分离数据集(WSJ0-2mix和WSJ0-3mix)上均取得了最优性能,相较于先前的最先进结果,其SI-SNRi指标分别提升了绝对值0.8 dB和2.4 dB。