
摘要
在本研究中,我们提出了一种密集频率-时间注意力网络(DeFT-AN),用于多通道语音增强。DeFT-AN是一种掩模估计网络,能够预测一个复数谱掩模模式,以抑制输入信号短时傅里叶变换(STFT)中嵌入的噪声和混响。所提出的掩模估计网络结合了三种不同类型的块,分别用于聚合空间、频谱和时间维度的信息。该网络利用了一个具有改进前馈网络的频谱变换器和一个具有顺序空洞卷积的时间共形器。通过使用针对音频信号三个不同特征的密集块和变换器,使得DeFT-AN能够在嘈杂和混响环境中实现更加全面的语音增强效果。基于两个流行的噪声和混响数据集,通过多种语音质量和可懂度指标评估,证明了DeFT-AN在最先进的多通道模型中的卓越性能。