
摘要
音频视觉语音分离方法旨在整合不同的模态,以生成高质量的分离语音,从而提升诸如语音识别等下游任务的性能。现有的大多数最先进(SOTA)模型都在时域内运行。然而,它们对声学特征建模的方法过于简单,通常需要更大且计算量更高的模型才能达到最先进水平。在本文中,我们提出了一种新颖的时间频率域音频视觉语音分离方法:循环时间频率分离网络(Recurrent Time-Frequency Separation Network, RTFS-Net),该方法在其算法中应用了由短时傅里叶变换产生的复数时间频率单元。我们使用多层递归神经网络(RNN)独立地对音频的时间和频率维度进行建模和捕捉。此外,我们引入了一种独特的基于注意力机制的融合技术,用于高效整合音频和视觉信息,并提出了一种新的掩码分离方法,利用声学特征的固有频谱特性实现更清晰的分离。RTFS-Net在推理速度和分离质量上均优于之前的最先进方法,同时参数数量减少了90%,乘积累加运算次数(MACs)减少了83%。这是首次在时间频率域内实现超越所有当代时域同类方法的音频视觉语音分离技术。