12 天前

一种高效的短时离散余弦变换与注意力多分辨率UNet框架用于音乐源分离

{N. Mitianoudis, A. Bousis, T. Sgouros}
摘要

音乐源分离问题——即从混合音频中估计出各个原始音频成分——长期以来一直是研究的热点。在近年来的框架中,该问题通常通过构建深度学习模型来解决,这些模型以短时傅里叶变换(STFT)谱图作为输入,尝试从各成分中提取信息。大多数现有方法假设在每个时间-频率点上仅存在一个声源,从而可将该点的信号分配给目标声源。然而,这一假设过于严格,实际中往往不成立。由此带来的一个问题在于:当使用STFT的幅值作为网络输入时,在分离后的声源重建过程中会丢失傅里叶相位信息。而相位信息的恢复既难以建模,也缺乏计算效率。本文提出一种新颖的注意力多分辨率UNet(Attentive MultiResUNet)架构,其输入采用实值的短时离散余弦变换(STDT)数据,从而避免了相位恢复问题。该方法通过网络内部自适应地估计合适的数值,而非依赖复杂的相位估计或后处理算法。所提出的网络结构基于U-Net的编码器-解码器框架,引入残差跳跃连接与注意力机制,能够有效关联跳跃连接路径与前一级解码器的输出,增强特征融合能力。该网络首次应用于音频源分离任务,相比当前最先进的分离网络,具有更高的计算效率,在仅需极低计算成本的情况下,实现了与当前最优方法相当甚至更优的性能表现。

一种高效的短时离散余弦变换与注意力多分辨率UNet框架用于音乐源分离 | 最新论文 | HyperAI超神经