6 个月前

摘要

单通道语音增强是一个具有挑战性的不适定问题，其核心在于从退化信号中估计出干净语音。现有研究已证明，将卷积神经网络（CNN）与Transformer相结合在语音增强任务中具有优异的性能。然而，现有框架在计算效率方面尚未得到充分优化，并且忽视了频谱固有的多尺度分布特性。此外，CNN在语音增强中的潜力尚未被充分挖掘。为解决上述问题，本文提出了一种深度可分离空洞密集块（Deep Separable Dilated Dense Block, DSDDB）以及一种分组质数核前馈通道注意力模块（Group Prime Kernel Feedforward Channel Attention, GPFCA）。具体而言，DSDDB通过引入更高的参数与计算效率，有效提升了现有编码器/解码器架构的性能；GPFCA模块取代了Conformer中的位置，以线性复杂度提取频谱的深层时序与频域特征。该模块基于所提出的分组质数核前馈网络（Group Prime Kernel Feedforward Network, GPFN），融合了多粒度的长程、中程与短程感受野，同时利用质数的数学特性避免了周期性重叠效应。实验结果表明，本文提出的PrimeK-Net在VoiceBank+Demand数据集上达到了当前最优（SOTA）性能，PESQ得分高达3.61，且仅需141万参数。

源 PDF