15 天前
语音分离中的注意力机制:一切尽在注意力
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Mirko Bronzi, Jianyuan Zhong

摘要
循环神经网络(Recurrent Neural Networks, RNNs)长期以来一直是序列到序列学习中的主流架构。然而,RNN本质上是顺序计算模型,其计算过程难以并行化。相比之下,Transformer架构正逐渐成为标准RNN的自然替代方案,通过多头注意力机制取代循环计算结构。本文提出了一种新型的无RNN架构的Transformer神经网络——SepFormer,用于语音分离任务。SepFormer采用多尺度方法,利用Transformer结构有效建模语音信号的短时与长时依赖关系。在标准的WSJ0-2mix和WSJ0-3mix数据集上,该模型取得了当前最先进的性能:在WSJ0-2mix上达到22.3 dB的SI-SNRi指标,在WSJ0-3mix上达到19.5 dB的SI-SNRi指标。SepFormer继承了Transformer架构的并行计算优势,在将编码表示下采样8倍的情况下仍能保持优异性能。因此,与当前最先进的语音分离系统相比,SepFormer不仅运行速度显著更快,而且对内存的需求更低,展现出更强的实用性与效率。