
摘要
本文提出了一种高效神经网络,用于端到端的通用音频源分离任务。具体而言,该卷积网络的骨干结构为多分辨率特征的逐级下采样与重采样(SuDoRMRF),并通过简单的1维卷积实现特征聚合。该设计使得我们在有限的浮点运算量、内存占用、参数数量以及延迟条件下,仍能实现高质量的音频源分离效果。在语音与环境声音分离数据集上的实验结果表明,SuDoRMRF在性能上可与现有最先进方法相媲美,甚至在部分场景下超越它们,且所需计算资源显著更低。
本文提出了一种高效神经网络,用于端到端的通用音频源分离任务。具体而言,该卷积网络的骨干结构为多分辨率特征的逐级下采样与重采样(SuDoRMRF),并通过简单的1维卷积实现特征聚合。该设计使得我们在有限的浮点运算量、内存占用、参数数量以及延迟条件下,仍能实现高质量的音频源分离效果。在语音与环境声音分离数据集上的实验结果表明,SuDoRMRF在性能上可与现有最先进方法相媲美,甚至在部分场景下超越它们,且所需计算资源显著更低。