17 天前
用于神经音频数据处理的子谱归一化
Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack Yun, Kyuwoong Hwang

摘要
卷积神经网络在众多机器学习领域中得到了广泛应用。在图像处理中,可通过在输入的所有空间维度上应用二维卷积来提取特征。然而,在音频处理中,诸如梅尔频谱图(Mel-Spectrogram)这类频域输入在频率维度上具有独特且不同的特性。因此,亟需一种能够使二维卷积层对频率维度进行差异化处理的方法。本文提出了一种名为子频带归一化(SubSpectral Normalization, SSN)的新方法,该方法将输入的频率维度划分为若干组(子频带),并对每一组分别执行独立的归一化操作。此外,SSN还引入了可应用于每组的仿射变换。该方法在保证网络学习频率感知特征的同时,有效消除了频率维度之间的相互干扰。在音频数据的实验中,我们发现SSN能够显著提升网络的性能。