
摘要
语音分离仍是多说话人技术研究中的重要课题。卷积增强型变换器(Conformers)在众多语音处理任务中表现优异,但在语音分离领域的研究仍相对不足。目前多数最先进的分离模型(SOTA)均为时域音频分离网络(TasNet)。一些成功的模型采用了双路径(Dual-Path, DP)网络结构,通过顺序处理局部与全局信息来提升性能。时域Conformer(TD-Conformer)在原理上与DP方法类似,同样采用顺序处理局部与全局上下文信息的方式,但其时间复杂度函数有所不同。研究表明,在实际应用中信号长度较短的情况下,若控制特征维度一致,Conformer模型在计算效率上更具优势。为进一步提升计算效率,本文提出引入下采样层。所提出的最优TD-Conformer模型在WHAMR和WSJ0-2Mix基准测试中,分别实现了14.6 dB和21.2 dB的SISDR(信噪比改善指标)提升。