
摘要
近年来,深度学习模型在语音增强任务中取得了优异性能,但如何在不显著降低性能的前提下构建快速且低复杂度的模型仍具挑战性。以往针对语音增强任务的知识蒸馏研究未能有效解决该问题,主要原因在于其采用的输出蒸馏方法在某些方面并不适用于语音增强任务。为此,本文提出一种基于特征的蒸馏方法——多视角注意力转移(Multi-View Attention Transfer, MV-AT),用于在时域中构建高效的语音增强模型。该方法基于多视角特征提取网络,无需引入额外参数,即可将教师网络的多视角知识有效迁移至学生网络。实验结果表明,所提方法在Valentini和深度噪声抑制(Deep Noise Suppression, DNS)数据集上,均显著提升了不同规模学生模型的性能。采用本文方法的轻量级模型MANNER-S-8.1GF,在保持与基线模型相近性能的同时,参数量和浮点运算量(FLOPs)分别减少了15.4倍和4.71倍,显著提升了模型的部署效率。