2 个月前

基于一维卷积神经网络的端到端环境声音分类

Abdoli, Sajjad ; Cardinal, Patrick ; Koerich, Alessandro Lameiras
基于一维卷积神经网络的端到端环境声音分类
摘要

在本文中,我们提出了一种基于一维卷积神经网络(1D CNN)的端到端环境声音分类方法,该方法直接从音频信号中学习表示。通过使用多个卷积层来捕捉信号的精细时间结构并学习与分类任务相关的多种滤波器。所提出的这种方法可以处理任意长度的音频信号,因为它使用滑动窗口将信号分割成重叠帧。我们评估了不同架构,包括考虑多种输入尺寸的情况,并且在第一个卷积层初始化时采用了伽玛音调滤波器组(Gammatone filterbank),该滤波器组能够模拟人类耳蜗中的听觉滤波响应。所提出的端到端方法在UrbanSound8k数据集上的环境声音分类性能进行了评估,实验结果表明其平均准确率达到了89%。因此,该方法优于大多数使用手工设计特征或二维表示作为输入的现有先进方法。此外,与文献中其他架构相比,所提出的方法具有较少的参数,从而减少了训练所需的数据量。

基于一维卷积神经网络的端到端环境声音分类 | 最新论文 | HyperAI超神经