15 天前

计算与内存高效的通用声音源分离

Efthymios Tzinis, Zhepei Wang, Xilin Jiang, Paris Smaragdis
计算与内存高效的通用声音源分离
摘要

近年来,以深度学习为主导的音频源分离技术取得了显著进展,使得多种神经网络模型能够为这一基础性估计问题提供稳健的解决方案。在本研究中,我们提出了一类面向通用音频源分离任务的高效神经网络架构,同时重点关注制约神经网络在真实场景中应用的多重计算因素。该卷积网络的核心结构为多分辨率特征的逐级下采样与重采样机制(SuDoRM-RF),其特征聚合过程通过简单的二维卷积实现。该机制使我们的模型能够在多种复杂场景下实现高保真度的信号分离,尤其适用于源数量可变且计算资源受限(如浮点运算量、内存占用、参数量及延迟)的情况。实验结果表明,SuDoRM-RF模型在性能上可与甚至超越多个最先进的基准方法,而其计算资源消耗却显著更低。此外,SuDoRM-RF的因果版本在实时语音分离任务中实现了约10 dB的尺度不变信号失真比提升(SI-SDRi),同时在笔记本电脑设备上运行速度最高可达实时速度的20倍。