11 天前

ERANNs:用于音频模式识别的高效残差音频神经网络

Sergey Verbitskiy, Vladimir Berikov, Viacheslav Vyshegorodtsev
ERANNs:用于音频模式识别的高效残差音频神经网络
摘要

音频模式识别(Audio Pattern Recognition, APR)是一项重要的研究课题,可广泛应用于与人们生活密切相关的多个领域。因此,开发准确且高效的APR系统具有重要意义,因其在实际应用中具备显著价值。本文提出了一种新型卷积神经网络(Convolutional Neural Network, CNN)架构,以及一种提升基于CNN的APR系统推理速度的方法。实验结果表明,所提出的方法不仅有效提升了系统性能,还在四个音频数据集上得到了验证。此外,本文还系统研究了数据增强技术与迁移学习对系统性能的影响。在AudioSet数据集上,我们的最优系统取得了0.450的平均精度均值(mean Average Precision, mAP)。尽管该指标略低于当前最先进系统,但本系统在效率和规模上具有显著优势:推理速度提升7.1倍,模型体积缩小至原系统的1/9.7。在ESC-50、UrbanSound8K和RAVDESS三个数据集上,我们的系统分别取得了0.961、0.908和0.748的准确率,达到当前最优水平。具体而言,针对ESC-50数据集,本系统比先前最优系统快1.7倍,体积缩小2.3倍;针对RAVDESS数据集,模型体积仅为先前最优系统的1/3.3。综上所述,我们提出的系统命名为“高效残差音频神经网络”(Efficient Residual Audio Neural Networks),在保持优异性能的同时,显著提升了推理效率并大幅减小了模型规模,具备良好的实用前景。

ERANNs:用于音频模式识别的高效残差音频神经网络 | 最新论文 | HyperAI超神经