15 天前

时域Conformer模型在噪声混响声学环境下的单声道语音分离研究

William Ravenscroft, Stefan Goetze, Thomas Hain
时域Conformer模型在噪声混响声学环境下的单声道语音分离研究
摘要

语音分离仍是多说话人技术研究中的重要课题。卷积增强型变换器(Conformers)在众多语音处理任务中表现优异,但在语音分离领域的研究仍相对不足。目前多数最先进的分离模型(SOTA)均为时域音频分离网络(TasNet)。一些成功的模型采用了双路径(Dual-Path, DP)网络结构,通过顺序处理局部与全局信息来提升性能。时域Conformer(TD-Conformer)在原理上与DP方法类似,同样采用顺序处理局部与全局上下文信息的方式,但其时间复杂度函数有所不同。研究表明,在实际应用中信号长度较短的情况下,若控制特征维度一致,Conformer模型在计算效率上更具优势。为进一步提升计算效率,本文提出引入下采样层。所提出的最优TD-Conformer模型在WHAMR和WSJ0-2Mix基准测试中,分别实现了14.6 dB和21.2 dB的SISDR(信噪比改善指标)提升。

时域Conformer模型在噪声混响声学环境下的单声道语音分离研究 | 最新论文 | HyperAI超神经