
摘要
语音增强旨在提升嘈杂环境下的语音质量与可懂度。近年来,研究重点集中于深度神经网络,尤其是采用两阶段(Two-Stage, TS)架构以增强特征提取能力。然而,这些模型的复杂度与参数规模仍然较大,限制了其在资源受限场景中的应用。面向边缘设备设计高效模型面临诸多挑战:过于轻量化的网络结构常因损失函数空间分布不均而遭遇性能瓶颈;此外,诸如Transformer或Mamba等先进算子在实际部署中往往缺乏卷积神经网络(CNN)所具备的实用性与计算效率。为应对上述问题,本文提出一种创新的超轻量级语音增强网络——Dense-TSNet。该方法引入了一种新型的密集两阶段(Dense Two-Stage, Dense-TS)架构,相较于经典两阶段结构,能够在训练后期更稳健地优化目标函数,从而有效缓解基线模型的过早收敛问题,显著提升最终性能。同时,我们提出多视角凝视模块(Multi-View Gaze Block, MVGB),通过融合全局、通道与局部三个视角的特征表达,利用卷积神经网络实现更高效的特征提取。此外,本文还深入探讨了不同损失函数对感知质量的影响。实验结果表明,Dense-TSNet在仅约14K参数规模下展现出优异的性能,具有极强的轻量化优势,特别适用于资源受限环境下的边缘部署。