3 个月前
PrimeK-Net:基于分组素数核卷积神经网络的多尺度谱学习用于单通道语音增强
Zizhen Lin, Junyu Wang, Ruili Li, Fei Shen, Xi Xuan

摘要
单通道语音增强是一个具有挑战性的不适定问题,其核心在于从退化信号中估计出干净语音。现有研究已证明,将卷积神经网络(CNN)与Transformer相结合在语音增强任务中具有优异的性能。然而,现有框架在计算效率方面尚未得到充分优化,并且忽视了频谱固有的多尺度分布特性。此外,CNN在语音增强中的潜力尚未被充分挖掘。为解决上述问题,本文提出了一种深度可分离空洞密集块(Deep Separable Dilated Dense Block, DSDDB)以及一种分组质数核前馈通道注意力模块(Group Prime Kernel Feedforward Channel Attention, GPFCA)。具体而言,DSDDB通过引入更高的参数与计算效率,有效提升了现有编码器/解码器架构的性能;GPFCA模块取代了Conformer中的位置,以线性复杂度提取频谱的深层时序与频域特征。该模块基于所提出的分组质数核前馈网络(Group Prime Kernel Feedforward Network, GPFN),融合了多粒度的长程、中程与短程感受野,同时利用质数的数学特性避免了周期性重叠效应。实验结果表明,本文提出的PrimeK-Net在VoiceBank+Demand数据集上达到了当前最优(SOTA)性能,PESQ得分高达3.61,且仅需141万参数。