
摘要
深度神经网络在语音分离任务中展现出优异的前景。然而,在实际应用中,如何在保持低模型复杂度的同时获得良好性能,仍是亟待解决的挑战。本文提出一种受生物启发的高效编码器-解码器架构——TDANet,该架构通过模拟大脑自上而下的注意力机制,在不牺牲性能的前提下显著降低了模型复杂度。TDANet中的自上而下注意力机制由全局注意力(Global Attention, GA)模块与级联式局部注意力(Cascaded Local Attention, LA)层共同实现。GA模块以多尺度声学特征为输入,提取全局注意力信号,并通过直接的自上而下连接对不同尺度的特征进行调制;LA层则以相邻层的特征作为输入,提取局部注意力信号,并以自上而下的方式调制横向输入。在三个基准数据集上的实验结果表明,TDANet始终能够达到与以往最先进(SOTA)方法相当甚至更优的语音分离性能,同时具备更高的计算效率。具体而言,TDANet的乘加操作(MACs)仅相当于先前SOTA模型Sepformer的5%,其CPU推理时间也仅为Sepformer的10%。此外,TDANet的大规模版本在三个数据集上均取得了SOTA性能,其MACs仍仅为Sepformer的10%,CPU推理时间仅为Sepformer的24%。