16 天前

D3Net:用于音乐源分离的密集连接多膨胀DenseNet

Naoya Takahashi, Yuki Mitsufuji
D3Net:用于音乐源分离的密集连接多膨胀DenseNet
摘要

音乐源分离需要处理较大的输入感受野,以建模音频信号的长期依赖关系。以往基于卷积神经网络(CNN)的方法通常通过逐层下采样与上采样特征图,或采用空洞卷积(dilated convolution)来实现大感受野的建模。本文强调了在单个卷积层中实现感受野快速扩张以及同时建模多分辨率数据的重要性,提出了一种新型CNN架构——密集连接空洞DenseNet(Densely Connected Dilated DenseNet, D3Net)。D3Net引入了一种新型的多空洞卷积(multi-dilated convolution)机制,该机制在单一层内采用不同的空洞因子,从而能够并行建模多种分辨率的特征。通过将多空洞卷积与DenseNet架构相结合,D3Net有效避免了在直接将空洞卷积嵌入DenseNet时可能出现的混叠(aliasing)问题。在MUSDB18数据集上的实验结果表明,D3Net取得了当前最优的性能,平均信噪比失真度(Signal-to-Distortion Ratio, SDR)达到6.01 dB。