17 天前
探索自注意力机制在语音分离中的应用
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi

摘要
Transformer架构在深度学习领域带来了显著的性能提升。相较于循环神经网络和卷积神经网络,Transformer在诸多任务中表现出更优的性能,同时充分利用了并行计算的优势。近期,我们提出了SepFormer模型,在WSJ0-2/3 Mix数据集上的语音分离任务中达到了当前最优水平。本文对Transformer在语音分离任务中的应用进行了深入研究。具体而言,我们在先前关于SepFormer的研究基础上,进一步在更具挑战性的噪声环境和混响噪声数据集(如LibriMix、WHAM!和WHAMR!)上进行了实验,验证了模型的鲁棒性与泛化能力。此外,我们将模型拓展至语音增强任务,针对去噪与去混响任务提供了充分的实验验证。最后,本文首次在语音分离任务中探索了高效的自注意力机制,包括Linformer、Longformer与Reformer。实验结果表明,这些机制可显著降低模型的内存占用。例如,我们发现基于Reformer的自注意力机制在WSJ0-2Mix数据集上的表现优于广受认可的Conv-TasNet模型,同时在推理速度上更具优势,且内存消耗与之相当。